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Capítulo 1 
Noções básicas 


A experiência com amostragem é fato corrente no cotidiano. Basta lembrar como um 
cozinheiro verifica o tempero de um prato que está preparando, como alguém testa 
a temperatura de um prato fumegante de sopa, ou ainda como um médico detecta 
as condições de um paciente através de exames de sangue. Poderiam ser listados 
outros exemplos que usam procedimentos amostrais mais complicados, mas todos 
com o mesmo objetivo: obter informações sobre o todo baseando-se no resultado de 
uma amostra. 

Porém, o uso inadequado de um procedimento amostral pode levar a um viés 
de interpretação do resultado. Por exemplo, não mexer bem a sopa antes de retirar 
uma colher para experimentar pode levar a subavaliação da temperatura do prato 
todo com consequências deagradáveis para o usuário. 

Em estudos mais sofisticados, onde as informações são obtidas através de le- 
vantamentos amostrais, é comum o usuário ficar tão envolvido na apuração e inter- 
pretação dos dados que “esquece” de verificar possíveis viéses originários do protocolo 
de escolha da amostra. 

O uso de amostras que produzam resultados confiáveis e livres de viéses é o 
desejo de todos. Entretanto, estes conceitos não são triviais e precisam ser estabe- 
lecidos para o uso científico dos processos amostrais. Desse modo, necessita-se de 
teoria que descreva as propriedades e impropriedades de alguns protocolos de obter 
amostras. Esse é o objetivo do livro: apresentar os princípios básicos de uma “Teo- 
ria de Amostragem”. Cursos introdutórios de inferência estatística também ensinam 
a fornecer resultados para o todo baseando-se em resultados da amostra, porém a 
ênfase é dada para populações infinitas, ou o que é muito mais comum, a amostra é 


retirada de uma distribuição de probabilidade. Não se discute muito como a amostra 


2 Noções básicas 


é obtida, garante-se apenas que as observações foram obtidas independentemente, 
com igual probabilidade, e retiradas de uma mesma população teoricamente infinita. 
Aqui a população será finita, e possivelmente enumerável ou passível de descrição. 
Neste capítulo pretende-se dar uma visão geral das questões envolvidas em um 
plano amostral e que servirá para um primeiro contato com aspectos metodológicos 


emergentes de uma pesquisa de tal natureza. 


1.1 Palavras-chave 


Toda teoria, e amostragem não foge a regra, necessita de um conjunto de conceitos 
e termos técnicos sobre a qual ela se fundamenta. Estes conceitos irão aparecendo 
pelos diversos capítulos conforme se tornarem necessários. Porém, é conveniente para 
unificar a linguagem e tornar mais clara a explicação, definir alguns desses conceitos, 
mesmo que de forma abreviada. No Apêndice A estão listadas e descritas algumas 
palavras-chave que atendem a esse objetivo. Recomendamos ao leitor consultá-lo 


sempre que tiver dúvidas em relação a algum dos conceitos mencionados. 


1.2 Guia para um levantamento amostral 


Ao optar por uma pesquisa quantitativa, levantamento ou experimentação, é 
necessário que o pesquisador planeje, execute, corrija e analise adequadamente o 
procedimento proposto e usado. Isto significa tomar uma série de medidas e cui- 
dados antes da realização, durante a aplicação e depois da pesquisa efetuada. Sem 
esses passos dificilmente pode-se garantir resultados convincentes e confiáveis. Um 
estatístico experiente desenvolve os seus próprios procedimentos, escritos ou não, 
para conduzir ou orientar uma pesquisa quantitativa, mas terá muita dificuldade em 
transmitir esses conhecimentos sem a prática e o convívio cotidiano com o aprendiz. 
Um dos métodos para transferir conhecimento e agilizar o treinamento nesta ativi- 
dade é através da apresentação de uma lista de tópicos que devam ser abordados em 
uma pesquisa quantitativa, ou melhor, apresentando o chamado “checklist”. Estas 
listas nunca são definitivas ou completas. Em primeiro lugar elas traduzem as idios- 
sincrasias de seus formuladores, e em segundo, dificilmente conseguem prever todas 
as possíveis situações de um mundo tão rico e complexo como as pesquisas quanti- 
tativas. Portanto, devem ser usadas como um guia aproximado para planejamento 


e execução de um plano amostral. 
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Apresentamos no Apêndice B a nossa lista de pontos. Ela é resultante de 
nossas discussões, conhecimento, aprendizado, experiência e prática. Além de servir 
como referência, aproveitaremos a relação para abordar alguns tópicos que raramente 
aparecem em livros de técnicas de amostragem. Tais assuntos são fundamentais 
para aqueles que tenham que conduzir ou assessorar um levantamento amostral, e 
ousamos afirmar que se estes procedimentos metodológicos não forem adequados, 
não existe técnica estatística, por melhor ou mais sofisticada que seja, que possa 
produzir resultados idôneos. 

Embora exista alguma aparente ordem na sequência das atividades, a prática 
nem sempre age deste modo. Salta-se de um ponto para outro de acordo com as 
necessidades, lembranças e informações que vão aparecendo. Entretanto, seguir 
os pontos mencionados terá a vantagem de uma apresentação aparentemente mais 
racional, servindo também como roteiro para apresentação do relatório. 

As seções seguintes abordarão alguns dos item mencionados, procurando ex- 
plicar um pouco mais sobre o seu significado. Os assuntos não serão obrigatoria- 
mente tratados nem na ordem nem no grupo onde apareceu mencionado. Os demais 
capítulos deste livro, relacionados com as técnicas de amostragem, abordam com 
maior profundidade os itens contidos no grupo intitulado Planejamento e Seleção 


de Amostra. 


1.3 O que se pretende conhecer? 


1.3.1 Qual a questão a ser respondida? 


Usualmente o objetivo geral de uma pesquisa é óbvio. Na maioria das vezes pode ser 
resumida em uma pergunta. As dificuldades começam ao se procurar em respostas 
a esta pergunta. Qual o potencial do mercado no município X para consumir um 
novo produto cultural? Deve-se investigar as pessoas mais ricas ou as de maior 
nível educacional? O conhecimento substantivo do assunto abordado ajuda muito a 
estabelecer os melhores caminhos em busca de uma resposta? Estudar levantamentos 
semelhantes realizados no passado, ou em outras regiões, é uma das melhores fontes 
para identificar e operacionalizar objetivos, bem como obter sugestões de como o 
problema pode ser resolvido. Pode-se aprender muito com erros cometidos por 
outros pesquisadores. 

Portanto, uma das maiores dificuldades de qualquer pesquisa é a formulação 


correta dos seus objetivos gerais e operacionais. Exige muito conhecimento específico 
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da área de interesse, muito trabalho de pesquisa bibliográfica e grande habilidade 
criativa por parte dos pesquisadores envolvidos. Em pesquisas quantitativas, a si- 
tuação agrava-se pela necessidade de transformar estes objetivos em questões opera- 
cionais quantificáveis. A literatura, e a experiência mais ainda, é rica em exemplos 
e situações onde a distância entre o objetivo genérico e a resposta quantitativa ope- 
racional é muito grande. Pense, por exemplo, na questão: renda é uma boa maneira 
de operacionalizar o conceito de classe social para uma família? Caso a resposta seja 
afirmativa, o que é melhor: renda familiar total ou renda familiar per capita? 

Pode-se até postular que “um problema corretamente definido já está resol- 
vido”, pois em sua formulação vem embutida a solução. 

Quase sempre um levantamento amostral tem múltiplos objetivos, mas para 
efeitos práticos é conveniente prender-se a um conjunto pequeno de questões-chave e 
que precisam ser respondidas. Isto facilitará o trabalho de planejamento. As demais 
questões farão parte de um conjunto de objetivos secundários, que poderão ou não 
ser adequadamente respondidos pela pesquisa. Deve-se evitar fortemente a tentação 


de acrescentar questões só para aproveitar o levantamento. 


1.3.2 A operacionalização dos conceitos 


Um dos maiores desafios das pesquisas quantitativas é a criação de bons indicadores 
(variáveis, escalas) que representem adequadamente os conceitos (constructos) de 
interesse. São exemplos de constructos: inteligência, nível sócio-econômico, desem- 
penho escolar, potencial de mercado, ansiedade, satisfação, etc. Para inteligência 
é bem conhecido o quociente de inteligência (QI) como um indicador. O critério 
Brasil, antigo ABA /ABIPEME, aquele que combina grau educacional, condições da 
moradia e bens possuídos é muito usado para expressar o nível sócio-econômico. O 
Ministério da Educação aplica uma série de provas para avaliar desempenho escolar 
(SAEB, ENEM, Provão, Pisa, etc.). Já para o potencial de mercado, procura-se 
criar uma escala medindo as componentes do conceito operacional: “pessoas, com 
dinheiro e disponibilidade para gastar”. Estas escalas, muitas vezes mal entendidas 
e erroneamente empregadas, são aceitas e largamente usadas por terem sido vali- 
dadas, isto é, foram criadas, analisadas contextualmente, comparadas e verificada 
a pertinência entre os valores na escala e o significado dentro do conceito. Alguns 
indicadores são medidos por meio de uma única variável mensurável, outras, que é 
o mais comum, são combinações de resultados de várias perguntas quantificáveis. 


Boa parte dos conteúdos dos livros de metodologia de pesquisa dedica-se a prescre- 


1.3 O que se pretende conhecer? 5 


ver métodos e processos para transformar conceitos teóricos em escalas confiáveis e 
validadas. Dentro da vasta literatura disponível, recomenda-se o livro de Pedhazur 


e Schmelkin (1991), pela sua abordagem mais quantitativa. 


1.3.3 Variáveis e atributos 


Associada a cada unidade elementar (UE - veja a definição na Seção 1.4.1) existirá 
uma ou mais características de interesse á pesquisa. São as chamadas variáveis 
ou atributos. Por exemplo, em um estudo onde a UE é a família pode-se estar 
interessado na renda familiar total, no número de membros, no sexo ou educação 
do chefe, etc. Já para a UE empresa, o interesse pode ser no faturamento total, 
lucratividade, ramo de atividade econômica, consumo de energia elétrica, etc. 

O objetivo específico da pesquisa é que orienta a escolha e definição da UE e 
das variáveis a serem coletadas. Em pesquisa de Marketing, sobre o poder de compra, 
uma das variáveis mais usadas é a renda familiar total. Já para um estudo sobre 
política de emprego é mais indicado analisar a renda individual do trabalhador. 
Em algumas situações a escolha da UE é muito mais complexa. Por exemplo, em um 
estudo sobre o comportamento de setores ligados à industria de alimentação, como 
tratar o restaurante dentro de uma grande montadora de automóveis? Observe que 
dependendo da definição, o mesmo estabelecimento poderia ser tratado de modo 


diferente caso a exploração fosse própria ou terceirizada. 


1.3.4 Especificação dos parâmetros 


Com os conceitos de interesse da pesquisa traduzidos em variáveis mensuráveis, 
necessita-se tornar bem claro quais as características populacionais (parâmetros) 
que deverão ser estimados pela amostra. A falta de uma inequívoca definição inicial 
tem sido fatal para muitas pesquisas. 

Suponha que o objetivo de um levantamento seja medir o crescimento das 
vendas das empresas do setor de vestuário em um determinado ano. Isso pode 
ser medido, pelo menos, de duas maneiras: (i) como a média do crescimento de 
cada empresa (vendas deste ano/vendas do ano anterior, para cada empresa) ou, 
(ii) razão entre o total de vendas de todas as empresas neste ano dividido pelo 
total de vendas das empresas no ano passado. Estes resultados podem ser bem 
diferentes, principalmente se as grandes empresas tiverem comportamento distinto 
das pequenas. A escolha de um outro parâmetro é fundamental na orientação do 


desenho amostral. 
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Quando o levantamento exige, além de estimativas para a população toda, 
também para estratos e/ou subpopulações, deve-se redobrar o cuidado no planeja- 
mento para garantir estimadores adequados para o todo e as partes. É bom lembrar 
que podem ser usadas diferentes formas de parâmetros para variáveis em estratos 


distintos. 


1.4 De quem se está falando 


1.4.1 Unidade elementar, amostral e resposta 


A unidade elementar, ou simplesmente elemento de uma população é o objeto ou 
entidade portadora das informações que pretende-se coletar. Pode ser uma pessoa, 
família, domicílio, loja, empresa, estabelecimento, classe de alunos, escola, etc. É 
muito importante que a unidade elementar seja claramente definida para que o 
processo de coleta e análise tenha sempre um significado preciso e uniforme. Por 
exemplo, o conceito de família parece ser “natural”, mas sem uma definição adequada 
pessoas distintas teriam a mesma dificuldade de dar uma mesma classificação para 
situações especiais. Veja um destes casos: suponha que em um domicílio vive um 
casal com filhos adultos, inclusive uma de suas filhas casada, com o genro e um neto. 
Deve-se considerar uma ou duas famílias? Suponha agora que a filha é divorciada, 
e claro o genro não vive com eles, mudaria alguma coisa na sua definição? Nestas 
situações em vez de tentar criar definições próprias, recomenda-se fortemente buscar 
estudos já realizados onde esses problemas já foram estudados e as definições serão 
mais amplas e permitirão comparações entre diferentes pesquisas. Para o exemplo 
citado acima sugere-se consultar os manuais de metodologia de pesquisa editados 
pelo IBGE. 

Qualquer plano amostral fará recomendações para selecionar elementos da 
população por meio das unidades amostrais. Pode ser formada por uma única 
unidade elementar ou por várias. Uma pesquisa eleitoral usa eleitores como sendo a 
unidade elementar. Um levantamento pode escolher um ponto da cidade e entrevis- 
tar os cem primeiros eleitores que passam por lá. Usou-se a unidade elementar como 
unidade amostral. Um plano alternativo decidiu selecionar domicílios e entrevistar 
todos os eleitores residentes nos domicílios escolhidos. A unidade elementar conti- 
nua sendo eleitor mas agora a unidae amostral passou a ser domicílio, um conjunto 
de unidades elementares. Como será visto mais a frente, os planos amostrais em 


múltiplos estágios empregam diferentes unidades amostrais em um mesmo planeja- 
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mento. Por exemplo, uma amostra de eleitores pode ser obtida selecionando primeiro 
algumas cidades, quateirões dentro das cidades, domicílios dentro dos quateirões e 
finalmente eleitores dentro dos domicílios. 

Às vezes é conveniente ressaltar quem é a unidade respondente ou a unidade 
de resposta. Um exemplo pode ajudar a entender o conceito. O censo demográfico 
tem uma primeira parte com questões simples sobre cada morador do domicílio, tais 
como sexo, idade, grau de instrução, etc. Um único morador pode responder por 


todos os outros; usualmente elege-se o chefe, ou cônjuge como unidade de resposta. 


1.4.2 As diversas populações possíveis 


Como já foi dito, o objetivo da amostragem é fazer afirmações sobre uma população 
baseando-se no resultado (informação) de uma amostra. Assim, não sabendo exa- 
tamente de onde foi retirada a amostra, não se sabe para quem pode-se estender as 
conclusões, ou seja, para que população pode ser feita a inferência. 

Inicialmente convém lembrar que entende-se por população a reunião de 
todas as unidades elementares definidas no item anterior. 

Como no caso dos objetivos, começa-se falando de uma população genérica e 
frequentemente óbvia. Por exemplo, na pesquisa de potencial de mercado menci- 
onada acima, decide-se investigar a renda individual dos moradores do município. 
Portanto, a população é formada por todos os moradores do município. Será que os 
jovens irão consumir o produto? E os moradores da região rural? Assim, em uma 
segunda aproximação operacional, a população passa a ser os adultos (maiores de 18 
anos), moradores da região urbana de X. Restam ainda outras dúvidas: como tratar 
os inativos e aqueles que não têm renda? Conforme a resposta, pode ser necessário 
a redefinir a população objetivo (ou população alvo). 

A obtenção de uma amostra, qualquer que seja o plano amostral adotado, 
necessita de uma relação das unidades elementares. O ideal seria dispor de um rol 
sequencial dessas unidades para que se pudesse fazer uma escolha conveniente das 
unidades que comporiam a amostra. Entretanto, raramente dispõe-se de tais listas. 
No exemplo acima, dever-se-ía dispor da relação dos moradores de X, o que parece 
ser bem pouco provável que exista. Felizmente, existem informações, mais ou menos 
atualizadas, que podem ser usadas como alternativas para (descrever) a relação 
das unidades. Podem ser mapas, várias listas que reunidas descrevem boa parte 
do universo, censos, etc. Essas fontes que descrevem o universo a ser investigado 


formam o chamado sistema de referências. As unidades que aparecem nessas 
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listas muitas vezes são chamadas de unidades de listagem. 

Para o exemplo de potencial mencionado acima, pode-se usar como sistema de 
referência a relação dos Setores Censitários (SC) empregada pelo IBGE nos Censos 
Demográficos. O município é dividido em pequenas áreas que reunidas recobrem 
toda a área do município. Durante a realização do censo, cada SC é designado a um 
entrevistador que se encarrega de aplicar o questionário em todos os moradores de 
cada domicílio. Aos interessados, o IBGE fornece o mapa do SC, o número e tipo de 
domicílios existentes, o total de moradores e uma série de outras informações agrega- 
das. Na região urbana, cada SC engloba cerca de 300 domicílios. Essas informações 
são atualizadas de 10 em 10 anos, e algumas vezes em prazos menores. Analisando a 
relação de SC do município X, observa-se que em alguns deles existem quartéis, inter- 
natos, alojamentos, etc., os chamados domicílios coletivos. Também constata-se 
que alguns SC são formados especificamente por favelas, e neste momento não inte- 
ressaria ao levantamento. Decide-se assim, não entrevistar os domicílios coletivos e 
nem as favelas. Informações recentes sobre o crescimento da cidade, desde a última 
atualização dos SC, informa que a cidade já está invadindo SC que são classificados 
como rurais, mas não se sabe quais. Assim, devido à particularidade do sistema 
de referência, a população que servirá de base para a escolha da amostra pode ser 
definida como: “todos os moradores adultos, com residência em domicílios parti- 
culares classificados no último censo como moradores de região urbana, excluindo 
moradores de favelas”. Repare que a definição operacional baseada no sistema de 
referência não é obrigatoriamente a mesma que a população alvo. Chamaremos esta 
de população referenciada ou população referida. 

Selecionada a amostra, passa-se ao trabalho de campo, onde os dados serão 
coletados. Por diversas razões não se conseguem informações sobre algumas uni- 
dades selecionadas, e em compensação aparecem dados para outras unidades que 
não estavam previstas inicialmente. Unidades inexistentes, recusas, domicílios va- 
gos, ou fechados, impossibilidade de acessar a unidade (condomínios fechados) são 
alguns dos motivos para se perder unidades. Criação de novos conjuntos habitacio- 
nais, transformação de casas em cortiços, etc. podem ser motivos de aparecimento 
de unidades não selecionadas a priori. Em todo caso, tem-se uma amostra que foi 
retirada de uma população que não é exatamente a referida. Se a cidade tiver mui- 
tos condomínios fechados aos quais não foram permitido o acesso, e sabendo que 
nestes locais moram pessoas de alta renda, a estimativa do potencial de mercado 
será subestimada. Assim, a inferência referir-se-á apenas a uma nova população: a 


população amostrada. Ela só pode ser descrita após a realização do levantamento 
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de campo, e procura-se ressaltar quais as possíveis diferenças que ela possa ter com 
a população referida. 

A Figura 1.1 procura ilustrar as relações existentes entre as diferentes po- 
pulações. Como a amostra foi retirada da população amostrada é apenas sobre ela 
que valem as inferências estatísticas. A análise qualitativa, e algumas vezes até a 
quantitativa, das características das unidades perdidas e das agregadas, permite ava- 
liar quais as consequências em estender estas conclusões para a população referida. 
O conhecimento substantivo do assunto de pesquisa e das características das unida- 
des distintas nas duas populações, permite ao pesquisador avaliar as consequências 
de usar as conclusões da população referida para a população alvo. 

No exemplo em questão, estima-se estatisticamente qual o potencial relativo 
de pessoas na população amostrada. Para a população referida, pode-se apenas 
dizer que essa porcentagem deve ser maior que a da população amostrada, não 
se saberia precisar o quanto, pois deixaram-se de lado informações desconhecidas 
sobre moradores mais ricos da cidade. Ao eliminar do sistema de referência as 
favelas e os domicílios coletivos, elimina-se também uma parte dos mais pobres. Se 
este contingente for maior que o dos moradores dos condomínios fechados então o 
potencial relativo da população alvo é menor do que o da população amostrada. 
Novamente, não se sabe precisar os valores sem outros estudos ou informações. 

Em sua opinião, e ainda usando o exemplo acima, a inclusão dos moradores 
rurais na população alvo, de que modo afetaria o potencial de compra da cidade? 

Caso a pesquisa deva produzir respostas para partes preestabelecidas da po- 
pulação, isto deve ser conhecido antes da definição do plano amostral. Suponha 
que no exemplo anterior pretendia-se conhecer o mercado potencial separado dos 
moradores da região sul e norte. Assim, antes de definir a amostra, devia-se separar 
o sistema de referências nos SC do sul e do norte, ou seja, é como se estivesse tra- 
balhando com duas populações. Cada uma dessas subpopulações é chamada de um 
estrato. Estratificação é uma das estratégias mais usadas em desenhos amostrais. 
É utilizado tanto para dar respostas a partes da população como para melhorar os 
processos de estimação. Será visto em outros capítulos como a estratificação é um 
recurso poderosíssimo dentro da Amostragem. 

Existe uma forte tentação em usar a pesquisa amostral para conhecer detalhes 
de todas as partes da população, e para tanto, exageram ao estabelecer o número 
de estratos. Esta opção frequentemente implica em tamanhos de amostras econo- 
micamente inviáveis. Uma solução de compromisso é considerar os fatores básicos 


como estratos e os secundários como subclasses. Estas são partes da subpopulação 
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J EE 


populações alvo populações referenciada 


EEE 


unidades selecionadas para entrevistas unidades perdidas (escuras) 


Figura 1.1: Comparações das populações alvo, referida e amostrada 


que não entram no desenho amostral, mas são analisados a posteriori. Novamente, 
no exemplo em pauta, controlas-se a amostra garantindo representantes do sul e 
do norte. Mas, pretende-se também, conhecer o potencial segundo o sexo do res- 


pondente. Observe que por não ter sido controlado o fator sexo, a amostra pode 
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ter um número insignificante de representantes de uma das categorias de gênero, 
invalidando qualquer conclusão. 

Solicita-se a atenção para a diferença entre estrato e subclasse. Ambas repre- 
sentam partes da população, porém a primeira é contemplada no desenho amostral 
garantindo-se à priori, estimativas confiáveis. Já a segunda, a qualidade das esti- 
mativas dependerá da presença ou não de unidades suficientes em cada subclasse. 
Maiores esclarecimentos sobre estas diferenças aparecerão nos capítulos técnicos. 

Uma última palavra de advertência sobre os cuidados em definir as populações. 
Não se duvida em afirmar, que o sucesso de um levantamento amostral baseia-se 
fortemente no conhecimento que se tem sobre a população. Deve-se gastar boa parte 
do tempo (mais de 50%) estudando e definindo a população. Dever-se-ia conhecer 


tanto sobre ela que talvez fosse até dispensável a realizacão da pesquisa. 


1.5 Como obter os dados? 


1.5.1 Tipos de investigação 


Uma das etapas importantes de uma pesquisa quantitativa e muitas vezes relegada 
a um segundo plano, é o levantamento dos dados da(s) característica(s) de interesse. 
Um exemplo bem conhecido de coleta de dados são os chamados censos populacio- 
nais, realizados no Brasil pelo IBGE, que procuram determinar o número de pessoas 
existentes no país, segundo algumas características importantes como sexo, idade, 
nível educacional, etc. Porém, mesmo no censo, nem todas as variáveis são obtidas 
entrevistando todas as pessoas. Devido aos altos custos envolvidos, e o uso das 
informações de forma mais agregada, outras características como renda, ocupação, 
etc., são obtidas através de amostras, entrevistando apenas os moradores de parte 
dos domicílios, algo em torno de um em cada dez domicílios. Outro exemplo de le- 
vantamento amostral bastante divulgado ultimamente são as pesquisas de intenção 
de votos. 

Tipos de levantamento como os divulgados acima são mais “passivos” pois 
procuram identificar características da população sem interferir nos resultados, são 
as chamadas pesquisas de levantamento de dados (survey, em inglês). Outras vezes 
deseja-se saber o que acontece com determinada variável quando as unidades são 
submetidas a tratamentos especiais controlados. Por exemplo, o uso de determinada 
vacina diminui a incidência de certa doença? À altura com que um produto é exposto 


na gôndola aumenta a oportunidade de venda? Nesses casos é necessário trabalhar 
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com grupos que recebam o tratamento e outros que sirvam como controle. São os 
conhecidos planejamentos de experimentos, ou simplesmente experimentação. 
Outros critérios poderiam ser utilizados para identificar tipos de pesquisa. Na 
Figura 1.2 apresentam-se quatro possíveis critérios dicotômicos para classificar uma 
pesquisa. Só a combinação de suas alternativas já produziria 16 possíveis tipos de 


pesquisas quantitativas. 


a. participação do pesquisador 
nos resultados 


E add a 


experimentação levantamento 


b. objetivo da análise 


dá ias 


descritivo analítico 


c. complexidade dos dados 


dd a 


simples multivariado 


d. amplitude da coleta 


= cd Na 


censo amostra 


Figura 1.2: Critérios para classificar pesquisas 


Neste livro a preocupação maior será em apresentar pesquisas do tipo levan- 
tamento, com objetivos descritivos de dados simples obtidos de amostras. Eventu- 


almente serão tratados dados multivariados. 


1.5.2 Métodos de coleta de dados 


Escolhido o tipo de investigação é necessário decidir que método será usado para 
obter os dados. Os comentários feitos a seguir serão muito mais adequados para 


pesquisas amostrais, embora se apliquem também para outras situações. 
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Ter uma visão abrangente dos possíveis métodos de mensuração é muito útil 
para decidir qual seria o mais adequado para o levantamento que se pretende fa- 
zer. Um primeiro critério de classificação dos métodos pode ser aquele que avalia 
o processo de mensuração, ou seja, a utilização ou não de um instrumento formali- 
zado para coleta das informações. Quando não utiliza instrumentos formalizados, o 
pesquisador vai anotando livremente o que observa em cada UE procurando aprofun- 
dar aqueles aspectos que lhe pareçam mais interessantes, assim, sempre são obtidas 
informações semelhantes que permitam a condensação em tabelas resumidas. São 
ilustrações deste método os chamados estudos de caso, de profundidade ou ainda de 
conteúdo. Por exemplo, para investigar como a popualação mais carente resolve seus 
problemas de saúde, pode-se começar perguntando a um líder comunitário como ele 
ajuda a resolver problemas de saúde apresentados por membros de sua comunidade. 
Em seguida entrevistar um farmacêutico da região para saber qual o seu papel, de- 
pois a “benzedeira” local e assim por diante. Usualmente, este tipo de pesquisa não 
é indicado para fazer inferências sobre a população, mas é muito útil para apro- 
fundar o conhecimento sobre determinado assunto. Os instrumentos estruturados 
são mais usados em levantamentos e a sua versão mais conhecida é o questionário, 
preferencialmente com questões fechadas. Estes instrumentos formalizados tradu- 
zem a operacionalização dos conceitos que deverão ser obtidos, daí a importância de 
serem elaborados cuidadosamente, pré-testados e pré-analisados. Existe uma larga 
literatura no assunto a qual é recomendada àqueles que pretendem fazer algum le- 
vantamento. Outros exemplos de instrumentos formalizados são: as planilhas de 
levantamento de estoques para medir consumo de certo produto; os “peoplemeters”, 
pequenos aparelhos que registram o canal que a televisão está ligada em pesquisas 
de audiência, e as cadernetas de consumo para o estabelecimento de um sistema de 
ponderação em pesquisa de custo de vida. 

Um segundo critério para classificar os métodos de coleta dos dados é a forma 
de comunicação empregada: verbalizada ou não verbalizada. Estão classificadas na 
segunda alternativa os chamados estudos observacionais. Na categoria verbalizada 
pode-se considerar a comunicação oral ou escrita. Estudos observacionais são usa- 
dos, por exemplo, para analisar o comportamento de consumidores, para levantar 
opiniões em discussões de grupo, etc. Já a comunicação verbal é muito usada em 
levantamentos com populações humanas. A combinação destes critérios, aliados a 
outros produzem uma gama de diferentes métodos de coleta espalhadas pela lite- 
ratura com os mais diversos nomes. Em amostragem a combinação mais usada é 


a de comunicação verbal com mensuração estruturada. O uso de questionário com 
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entrevista pessoal oral talvez seja a combinação mais utilizada em levantamentos. 
Variações muito comuns são as entrevistas pelo correio ou telefone. 

Não há necessidade de ressaltar a importância do conhecimento do método 
de coleta dos dados no planejamento da amostragem. O número de elementos de 
um levantamento por correio costuma ser bem maior do que um semelhante mas 


realizado com entrevista pessoal. Por quê? 


1.5.3 Planejamento e seleção da amostra 


Suponha que após cuidadosa análise dos objetivos e orçamento, conclui-se que uma 
amostra é o procedimento indicado para análise de dados. Amostra, como o próprio 
nome indica, é qualquer parte da população. 

Portanto, supõe-se já fixadas as unidades de análise, os instrumentos de coletas 
de dados, bem como a relação das unidades componentes da população, ou seja, O 
sistema de referências. Desse modo, considera-se também identificados e listados os 
elementos pertencentes à população de referência. 

O propósito da amostra é o de fornecer informações que permitam descrever os 
parâmetros do universo de maneira mais adequada possível. A boa amostra permite a 
generalização de seus resultados dentro de limites aceitáveis de dúvidas. Além disso 
os seus custos de planejamento e execução devem ter sido minimizados. Embora estes 
conceitos sejam de fácil aceitação, a sua implementação não é assim tão trivial. 

Qualquer amostra fornece informações, porém não é qualquer uma que permite 
estender os resultados para a população da qual foi retirada. Ouve-se frequentemente 
o argumento de que uma boa amostra é aquela que é representativa. Indagado so- 
bre a definição de uma amostra representativa, a resposta mais comum é algo como: 
“aquela que é uma micro representação do universo”. Mas para se ter certeza de 
que uma amostra seja uma micro representação do universo para uma dada carac- 
terística de interesse, deve-se conhecer o comportamento dessa mesma característica 
da população. Então, o conhecimento da população seria tão grande que tonar-se-ia 
desnecessária a coleta da amostra. 

Outras vezes, o significado da micro representação confunde-se com o de uma 
amostra estratificada proporcional. Ou seja, a população é dividida em subpo- 
pulações (estratos) segundo alguma variável auxiliar, e de cada estrato sorteia-se 
uma amostra de tamanho proporcional ao seu tamanho. Este tipo de amostra não 
conduz obrigatoriamente a resultados mais precisos. Veja um exemplo a seguir. 


Suponha que o objetivo é estudar a renda familiar de certa cidade. O conhe- 
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cimento da geografia da cidade possibilita agrupar, aproximadamente os bairros em 
mais ricos (A), médios (B) e pobres (C). Uma consulta aos registros da prefeitura 
permite afirmar que 10% dos domicílios pertencem à classe A, 30% à classe B e 
os restantes 60% à classe C. Se o orçamento garante entrevistar 1000 domicílios, a 
amostra “representativa” seria selecionar 100 do estrato A, 300 do estrato B e 600 
do estrato C. Observe que uma outra amostra “não representativa” que alocasse 
600 ao estrato A, 300 ao B e 100 ao C pode apresentar resultados mais confiáveis. 
Basta lembrar que no estrato C os salários são muito parecidos, assim uma amostra 
de 600 domicílios seria um exagero. Já 100 unidades para o estrato A, onde as 
rendas variam muito, pode ser considerada muito pequena. Volte a contemplar este 
exemplo após estudar amostragem estratificada no Capítulo 4. 

Diante da dificuldade em definir amostra representativa, os estatísticos prefe- 
rem trabalhar com o conceito de amostra probabilística, que são os procedimentos 
onde cada possível amostra tem uma probabilidade conhecida, a priori, de ocor- 
rer. Desse modo, tem-se toda a teoria de probabilidade e inferência estatística para 
dar suporte as conclusões. Para generalizar as conclusões por meio de um outro 
procedimento, amostras intencionais, por exemplo, você deveria basear-se em teoria 
apropriada, digamos, teoria da intencionalidade, caso exista. 

Embora este livro seja dedicado a estudar procedimentos da amostragem pro- 
babilística, na seção seguinte mencionam-se brevemente alguns outros tipos de pro- 


cedimentos amostrais. 


1.5.4 Tipos básicos de amostras 


Jessen (1978) propõe um modelo interessante para identificar tipos de amostras, 
usando o cruzamento de dois critérios. O primeiro indica a presença ou ausência de 
um mecanismo probabilístico no plano de seleção da amostra, enquanto o segundo 
indica a existência ou não de um procedimento objetivo por parte do “amostrista” na 
seleção operacional da amostra. Procedimento objetivo é qualquer um cujo protocolo 
descritivo é inequívoco, ou seja, quando utilizado por pessoas distintas produz a 
mesma amostra, ou uma com as mesmas propriedades. Um procedimento subjetivo 
é aquele que permite ao usuário usar seus julgamentos ou sentimentos para selecionar 
uma “boa” amostra. A combinação desses dois critérios permite criar os quatro tipos 
de planos amostrais apresentados na Tabela 1.1. 
Neste livro, as vezes será usado imprecisamente o termo amostras como sinônimo 


de planos amostrais. Assim, por exemplo, pode aparecer mencionado tanto plano 
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Tabela 1.1: Tipos de amostras 


Critério do Procedimento de seleção 

“amostrista” probabilístico não probabilístico 
objetivo amostras probabilísticas amostras criteriosas 
subjetivo amostras quase-aleatórias amostras intencionais 


aleatório simples como amostras aleatórias simples para descrever um determinado 
procedimento de seleção. Entende-se por amostras aleatórias simples as amostras 
obtidas através de um protocolo de seleção chamado plano aleatório simples. 


Alguns exemplos de planos amostrais: 


probabilística: amostragem aleatória estratificada proporcional; 


quase-aleatória: amostragem por quotas; 


criteriosas: uso do conceito de cidade típica; 


intencional: júri de especialistas, voluntários. 


1.5.5 Classificação de amostras probabilísticas 


A qualidade do sistema de referências e outras informações disponíveis orientam o 
desenho do plano amostral mais adequado para atingir os objetivos da pesquisa. As 
múltiplas possibilidades dessas características podem gerar uma grande variedade 
de planos amostrais. Como sempre, a apresentação sistemática destas possibilidades 
fica mais fácil quando agrupadas por alguns critérios, gerando tipologias de planos 
amostrais. Usar-se-á aqui os critérios propostos por Kish (1965) e resumidos na 
Figura 1.3. 

A combinação dos resultados de cada um desses critérios apontados gera 32 
possíveis planos amostrais. Por exemplo, usando as primeiras opções de cada critério 
tem-se o conhecido plano de Amostragem Aleatória Simples. Ou seja, cada 
unidade elementar é sorteada com igual probabilidade, individualmente, sem estra- 
tificação, e um único estágio e seleção aleatória. Neste livro serão abordados alguns 
destes planos e fornecidos instrumentos para que sejam exploradas as principais 
propriedades dos demais. 

Quando o sistema de referências (SR) é perfeito, isto é, quando ele lista uma 
a uma todas as unidades de análise, é possível então usar um processo onde cada 
unidade é sorteada diretamente com igual probabilidade de pertencer à amostra. 


A melhor maneira para definir este plano é descrevendo o processo de sorteio que 
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a. Probabilidade de seleção 
da unidade amostral 


a Ni 


igual distinta 


b. Unidade amostral 


as 


uma unidade de elementos 
resposta (elementar) (conglomerado) 


c. Divisão em estratos 


se O e 


não estratificada estratificada 


d. Número de estágios 


E dá aa 


um único mais de um 


e. Seleção das unidades 


spa a 


aleatória sistemática, 


Figura 1.3: Critérios para classificar amostras probabilísticas 


seria o seguinte: “da relação de unidades do SR, sorteie, com igual probabilidade 
de pertencer à amostra, o primeiro elemento da amostra, repita o processo para o 
segundo e assim sucessivamente até sortear o último elemento programado para a 
amostra”. As amostras assim obtidas definem o plano de Amostragem Aleatória 
Simples (AAS). Introduzindo o critério da reposição ou não da unidade sorteada an- 
tes do sorteio seguinte, obtém-se uma primeira dicotomia deste plano: Amostragem 
Aleatória Simples com e sem reposição (AASc e AASs). Do ponto de vista prático 
dever-se-ia usar sempre amostras sem reposição, pois não estaria sendo incorporada 
nova informação se uma mesma unidade fosse sorteada novamente. Entretanto, do 


ponto de vista estatístico a reposição recompõe o universo tornando mais fácil de- 
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duzir as propriedades dos modelos teóricos (independência). O plano AAS é o mais 
simples deles e serve como base para muitos outros, além disso o plano AASc é 
aquele usualmente utilizado nos livros de inferência estatística. 

O sorteio das unidades com igual probabilidade é apenas uma estratégia que 
simplifica muito o desenvolvimento das propriedades matemáticas associadas ao 
plano, mas em algumas situações é conveniente sortear as unidades com proba- 
bilidades desiguais. Nesta última situação, e se ainda não for feita reposição, os 
modelos de análise tornam-se bastante difíceis de serem derivados. 

Nem sempre tem-se à disposição um sistema de referência completo. É muito 
comum ter-se uma relação descrevendo um grupo de unidades elementares. Por 
exemplo, em pesquisa sobre intenção de votos, onde a unidade elementar é eleitor, 
é muito comum contar com o SR como sendo a relação de domicílios, ou seja, a 
unidade de sorteio será formada por um grupo de eleitores. Nem sempre a unidade 
elementar coincide com a unidade amostral. Tecnicamente, esse agrupamento de 
unidades elementares será designado por conglomerado. Os planos amostrais sele- 
cionando conglomerados de unidades elementares serão chamados de Amostragem 
por Conglomerados. 

Mesmo usando amostragem por conglomerados o interesse continua sendo a 
análise das unidades amostrais, e a obtenção de informação é feita nas unidades 
elementares. Voltando ao exemplo acima, embora tenha sido sorteado um domicílio 
deve-se obter a intenção de voto de cada eleitor do domicílio. Pode-se alegar, entre- 
tanto, que entrevistar todos os elementos do conglomerado é um desperdício já que 
as opiniões no seu interior tendem a ser muito semelhantes. Isto sugere a adoção de 
um sorteio em dois estágios: na primeira etapa sorteia-se o conglomerado (domicílio) 
e dentro do conglomerado selecionado sorteia-se a unidade elementar (eleitor). São 
os chamados planos de amostragem em múltiplos estágios. Este é um tipo de 
amostragem muito usado em populações humanas, onde inicialmente sorteiam-se as 
cidades, depois os bairros, quarteirões, domicílios e finalmente moradores. O uso 
de várias unidades de sorteio define em cada estágio uma diferente unidade amos- 
tral. Assim, no primeiro estágio, tem-se a Unidade Primária de Amostragem 
(UPA), no segundo estágio a Unidade Secundária de Amostragem (USA), 
etc. 

O uso de informações adicionais é fundamental para aprimorar um desenho 
amostral. Por exemplo, em uma pesquisa sobre renda familiar média, conhece-se de 
antemão as regiões da cidade onde predominam moradias de diferentes classes de 


renda. Esse conhecimento pode ser usado para definir subpopulações homogêneas 
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segundo a renda, e então sortear amostras dentro de cada uma das regiões. Este pro- 
cedimento é conhecido como a divisão da população em estratos, e consequentemente 
definem os Planos de Amostragem Estratificada. A estratificação procura ex- 
plorar a idéia de que quanto mais homogênea for a população, mais preciso são 
os resultados amostrais. Suponha por absurdo que um processo de estratificação 
consiga reunir em um estrato todas as famílias com uma mesma renda, para esti- 
mar este valor basta então sortear uma única família desse estrato. Quase todos 
os planos amostrais reais adotam a estratificação em algumas de suas etapas. A 
maneira de alocar as unidades amostrais pelos estratos definem diferentes famílias 
de Amostragem Estratificadas que serão estudadas nos capítulos correspondentes. 
Finalmente o sorteio das amostras pode ser feito aleatoriamente um a um, 
ou então criar conglomerados especiais agrupando unidades equidistantes uma das 
outras e sorteando um ou mais destes conglomerados. Por exemplo, pode-se formar 
um conglomerado contendo as unidades elementares ocupando as posições 1, 11, 21, 
31, etc. do SR; outro conglomerado contendo os elementos 2, 12, 22, 32, etc. e 
assim por diante. Desse modo, ter-se-ia 10 possíveis conglomerados artificiais e o 
sorteio de um deles forneceria uma amostra de 10% do total da população. Esse 
procedimento muito usado no passado, é conhecido como sorteio sistemático. Ele 
facilita muito o sorteio das unidades mas introduz alguns problemas técnicos difíceis 


de serem resolvidos. 


1.5.6 Estimadores e erros amostrais 


Suponha que a esta altura da pesquisa já estão definidos e escolhidos: o sistema 
de referências, a(s) variável(eis) e respectivo(s) parâmetro(s) de interesse, o plano 
amostral e tamanho de amostra; resta então escolher a(s) característica(s) da amos- 
tra que será(ão) usada(s) para responder os objetivos específicos da pesquisa. Para 
facilitar a exposição suponha que o interesse principal é conhecer um parâmetro 6 
associado a uma variável Y de interesse da população. A questão passa a ser que 
estatística (característica) t será usada para estimar 0. A teoria para escolha do 
“melhor” estimador encontra-se desenvolvida nos livros de Inferência Estatística e 
os próximos capítulos serão dedicados a estudar algumas propriedades de estima- 
dores simples para alguns planos amostrais particulares. Nesta seção dar-se-á um 
tratamento menos formal para o assunto. 

O uso de um levantamento amostral introduz algum tipo de erro, que pode 


ser resumido na diferênca entre o valor observado na amostra e o parâmetro de 
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interesse na população. Esta diferença pode ocorrer apenas devido à particular 
amostra escolhida, ou então devido a fatores externos do plano amostral. O primeiro 
são os chamados erros amostrais, objetos de avaliação estatística do plano amostral. 
Em seção futura, serão estudados alguns outros tipos de erros envolvidos em um 
levantamento amostral. Evidentemente, a avaliação de um plano amostral passa 
pelo conhecimento e mensuração da magnitude possível do erro global, ou seja, 


aquele englobando os dois tipos de erros. 


O estudo do erro amostral consiste, basicamente, em estudar o comportamento 
da diferença t — 6, quando t percorre todas as possíveis amostras que poderiam ser 
formadas através do plano amostral escolhido. Se o valor esperado desta diferença for 
igual a zero, tem-se um estimador não viesado. Já o valor esperado do quadrado 
desta diferença, o erro quadarático médio (EQM), informa sobre a precisão 
do estimador. Procura-se usualmente estimadores com baixos EQM. Quando o 
estimador é não viesado o EQM passa a ser a variância do estimador, calculada em 
relação a distribuição amostral do estimador. Para recuperar a mesma unidade da 
variável usa-se o desvio padrão, que nada mais é que a raíz quadrada da variância. 
Neste caso particular, o desvio padrão recebe o nome de erro padrão do estimador, 
que pode ser visto como indicador do erro médio esperado pelo uso deste estimador 


e deste plano amostral. 


Do ponto de vista estatístico, o objetivo ao escolher um estimador e desenhar 
um plano amostral, é poder controlar o erro padrão usualmente traduzidos pelos 
intervalos de confiança que podem ser construídos. Mais ainda, o objetivo é conseguir 


erro padrão baixo. 


O uso de informações adicionais para melhorar as estimativas, como no caso 
da estratificação acima é muito empregada em amostragem. Entretanto, essa in- 
formação as vezes é usada para melhorar os estimadores, e não o plano amostral. 
Por exemplo, deseja-se estimar através de amostragem o número de desempregados 
em determinada região. Os dados do registro civil fornecem informações precisas 
sobre a população em idade ativa (PIA - pessoas com mais de 15 anos). Pode-se 
usar a taxa de desemprego em relação a PIA obtida na amostra, combinada com os 
dados do registro civil para produzir melhores estimativas. Neste livro serão ana- 
lisados dois tipos de estimadores que incorporam informações adicionais através de 


variáveis auxiliares: razão e regressão. 
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1.5.7 Tamanho da amostra 


O erro padrão do estimador, como será visto em capítulos posteriores, decresce 
a medida que aumenta o tamanho da amostra. Assim, um ponto chave de um 


levantamento amostral é a fixação do tamanho da amostra. 


Uma amostra muito grande pode implicar em custos desnecessários, enquanto 
que uma amostra pequena pode tornar a pesquisa inconclusiva. Suponha um levan- 
tamento amostral cujo objetivo é prever qual dentre os dois únicos possíveis partidos 
terá maior porcentagem de votos válidos - excluídos nulos e brancos. Aceite também 
que foi utilizado um plano amostral aleatório simples (AAS) e um dos partidos ob- 
teve 56% dos votos. Caso tivesse sido usada uma amostra de 100 eleitores, o intervalo 
de 95% de confiança indicaria um número entre 46% e 66%, portanto inconclusivo 
para afirmar se partido ganharia ou não a eleição. Já uma amostra de 400 eleitores 
indicaria o intervalo entre 51% e 61%, sugerindo a vitória do partido. Por outro 
lado, uma amostra de 1600 eleitores definiria o intervalo entre 53,5% e 59,5 im- 
plicando no uso desnecessário de 1200 unidades a mais. O problema real é muito 
mais complexo que o apresentado aqui, mas o exemplo dá uma boa ilustração dos 
problemas estatísticos envolvidos na determinação do tamanho da amostra. 

Um dos aspectos pouco discutidos em cursos de amostragem é aquele associado 
aos custos de um levantamento. Este tópico é fundamental para o delineamento de 
toda a pesquisa, desde a definição dos objetivos possíveis de serem respondidos, 
passando pelo tamanho da amostra economicamente viável e chegando até a escolha 
da sofisticação do modelo de análise a ser adotado. Recomenda-se àqueles que 
venham a se dedicar a prática de amostragem que estudem mais profundamente 
este aspecto, podendo consultar principalmente o livro de Kish (1965) e Lansing e 
Morgan (1971). 

Como já foi mencionado, muitas vezes a precisão estatística desejada para a 
pesquisa esbarra nas limitações impostas pelo orçamento, obrigando a decidir entre 
realizar a pesquisa baixando a precisão desejada ou não realizar o levantamento. 
Isto nos remete ao compromisso para fixar o tamanho da amostra, ou mesmo para a 
pesquisa como um todo, em procurar dentro das restrições impostas pelo orçamento, 
desenhar uma amostra que atinja os objetivo, produzindo estimativas com a menor 
imprecisão possível. 

Embora neste livro a determinação do tamanho da amostra será sempre feita 
levando em conta os aspectos da precisão estatística, acredita-se que na maioria dos 


casos a decisão segue a proposição acima, isto é, as limitações orçamentárias definem 
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o tamanho da amostra e então estima-se a precisão possível. Se os dois interesses 


coincidirem, então se realiza a pesquisa. 


1.5.8 Censo ou amostragem 


Usa-se aqui o termo levantamento tanto para indicar a pesquisa feita para um re- 
censeamento (ou censo) como para uma amostra. O que diferencia é o número de 
unidades entrevistadas: no primeiro são todas e no segundo uma parte. 

Muitas pessoas acreditam que apenas através do censo é que se pode conhe- 
cer a “verdade” sobre a população. É claro que em igualdade de condições o censo 
produz resultados mais precisos que a amostra. Entretanto, como já foi mencio- 
nado, limitações orçamentárias impõe restrições que podem tornar o levantamento 
amostral mais fidedigno do que o censo. Imagine uma pesquisa com orçamento fixo, 
para conhecer o estado de saúde da população. Pode-se fazer um censo usando 
questionário como instrumento de coleta de informação, ou então uma amostra com 
exames clínicos e laboratoriais feitos por médicos e paramédicos. Parece que a se- 
gunda opção produzirá resultados muito mais informativos e precisos que o primeiro. 

Recomenda-se o uso de censo quando a população é pequena, erros amostrais 
grandes, informações baratas ou alto custo em tomar decisões erradas. O bom senso 
deve prevalecer em algumas decisões. Por exemplo, se a precisão estatística sugere 
uma amostra maior do que a metade da população é bem mais razoável fazer um 
censo, desde que os custos permitam. O censo seria indicado para uma pesquisa 
sobre a participação dos chefes de departamentos em uma universidade na definição 
da política de recrutamento de novos docentes. 

Em contraposição, deve-se usar amostragem quando a população é muito 
grande e/ou o custo (em dinheiro e tempo) de obter informações é alto. Seria 
recomendada se, na universidade do exemplo acima, se quisesse conhecer a opinião 


dos alunos sobre a qualidade dos professores em sala de aula. 


1.6 Coleta dos dados (trabalho de campo) 


Para o sucesso de um levantamento não basta um plano amostral tecnicamente 
perfeito, se as informações não forem recolhidas com fidedignidade. Imagine uma 
pesquisa sobre salários, onde o entrevistador não foi instruido para anotar se a in- 
formação refere-se a salário líquido ou bruto. Como será possível analisar os dados? 


Ou ainda, em pesquisa domiciliar onde apenas um elemento da casa será entrevis- 
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tado, deixar esta escolha para o entrevistador. Sem dúvida ele escolherá um membro 
presente na casa na hora da entrevista, introduzindo um viés na pesquisa. Provavel- 
mente este levantamento terá uma proporção bem maior de mulheres. Se não forem 
tomados cuidados, o trabalho de campo pode arruinar totalmente uma pesquisa. 
Assim, deve-se planejar e usar procedimentos que minimizem os erros, ou viéses 
introduzidos na coleta de dados. 

Jessen (1978) resume estes cuidados na seguinte frase: “as medidas são aque- 
las óbvias; selecionar boas pessoas, treiná-las bem e verificar se fazem o trabalho 
corretamente”. 

O volume de trabalho para operacionalizar essas medidas irá depender prin- 
cipalmente do tamanho da pesquisa e do fato da pesquisa ser pontual (ad-hoc) ou 
periódica. Para pesquisas pequenas, o treinamento de pessoal envolvido é bem re- 
duzido, podendo chegar ao caso de ser apenas o próprio pesquisador. Em pesquisas 
periódicas o esforço deve ser maior para elaborar manuais e material de consulta que 
serão usados frequentemente. Entretanto, pode-se apresentar sucintamente alguns 


comentários em como evitar viéses nos cuidados mencionados por Jessen. 


Recrutamento. Para pesquisas grandes, realizadas uma única vez, recomenda-se 
a contratação de empresas especializadas que possuam pesquisadores profissi- 
onais e que estejam acostumadas com a aplicação e administração deste tipo 
de trabalho. A alternativa, frequentemente mais barata, será a de executar 
o trabalho todo de contratar entrevistadores, listadores, supervisores, checa- 
dores, etc., cada um deles com um perfil próprio, desenvolver programas de 
qualidade da coleta, etc. Com uma seleção imprópria ou “caseira”, corre-se 
o risco de pagar caro pelo noviciado. Para pesquisas periódicas, e com a ne- 
cessidade constante de renovação e substituição de pessoas envolvidas pode-se 
criar um núcleo permanente de seleção de pessoal, com a vantagem adicional 


da escolha ser dirigida para os objetivos específicos do trabalho. 


Treinamento. O pessoal de pesquisa deve ser bem treinado não apenas com os 
conceitos, definições, uso do instrumento de mensuração, etc., mas também 
com os melhores procedimentos para extrair as informações desejadas. Existem 
técnicas bem desenvolvidas acerca de como abordar as pessoas, de postura, de 
entonação de voz e outras. Ou ainda, o treinamento para uma pesquisa frente 
a frente é bem diferente de uma por telefone. Em pesquisas muito grandes 
os problemas envolvidos com o treinamento são enormes e requerem muitas 


vezes o uso de mecanismos bastante especiais. Apenas imagine os cuidados 
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que devem ser tomados para o treinamento de mais de 150 mil entrevistadores 
para a realizacão do censo populacional brasileiro. Nestes casos, e na maioria 
deles, recomenda-se a adoção de manuais escritos para cada uma das tarefas: 


listagem, entrevistas, checagem, codificações, etc. 


Embora o treinamento procure prever todas as situações que serão encontradas, 
é preciso dar instruções sobre situações imprevistas. Por exemplo, na casa 
sorteada, tem mais de um domicílio e várias famílias, ou ainda, não se consegue 
encaixar a profissão do chefe em nenhum dos casos listados. O entrevistador 
deveria entrar em contato com a supervisão, ou então anotar o maior número 


possível de informação para possível correção no escritório. 


Verificação. É importante que se tenha um processo de controle contínuo da qua- 
lidade do trabalho de campo. A verificação deve ser realizada em várias 
etapas do trabalho do pesquisador. No início da pesquisa deve-se fazer um 
acompanhamento mais meticuloso para verificação do entendimento correto 
dos conceitos, da identificação exata das unidades selecionadas e de resposta, 
aprimorando e corrigindo-as imediatamente. Além de verificações rotineiras 
deve-se ter um plano de verificação aleatória, onde uma subamostra é reen- 
trevistada para apurar desde fraude até a qualidade das informações obtidas. 
Este procedimento permite avaliar a magnitude de alguns viéses introduzidos 


pelo trabalho de coleta de dados. 


A supervisão de campo deve estar em permanente contato com os responsáveis 
do planejamento para obter os esclarecimentos sobre questões ambíguas e de- 
cisões a serem tomadas para casos imprevistos. Também, o contato com os 
responsáveis com o processamento dos dados ajuda a esclarecer e remover in- 
formações desencontradas e os erros mais comuns cometidos pelo pessoal de 


campo. 


Registro. Muitas ocorrências e decisões imprevistas acontecem nesta fase e é muito 
importante que se mantenha um registro atualizado das mesmas para futuras 
avaliações do desempenho do levantamento. As estatísticas e qualificações 
sobre as unidades perdidas e as incluídas indevidamente é que permitirão a 
descrição pormenorizada da população amostrada. As dúvidas e inadequações 
apresentadas pelos entrevistadores, bem como os esclarecimentos prestados 
ajudarão a entender a qualidade, significado e fidedignidade das respostas ob- 
tidas. 
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1.7 Preparação dos dados 


Se não for devidamente avaliada, planejada e executada a construção inicial do banco 
de dados pode-se tornar a etapa mais demorada de um processo de levantamento de 
informações. 

Usando uma imagem bastante simplificada, pode-se descrever o banco de da- 
dos como sendo uma matriz de n+1 linhas por p+1 colunas. As linhas correspondem 
às n unidades respondentes e as colunas às p variáveis de interesse. À primeira co- 
luna descreve a identificação da unidade respondente, enquanto que a primeira linha 
denomina as variáveis. A célula (i,j) contém os dados codificados da j-ésima variável 
para a i-ésima unidade respondente. Estes dados devem estar disponíveis em um 
meio que permita o fácil acesso e manipulação, imagina-se um meio eletrônico con- 
veniente. 

A construção desta tabela exige: (i) transcrição; (ii) minucioso escrutínio da 


qualidade e (iii) disponibilização das informações. 


Transcrição. Esta tem sido a fase mais demorada do processo, porém tem sido 
aquele segmento onde a tecnologia vem apresentando soluções bem competen- 
tes. Quanto menos haja intervenção na transcrição de um meio para outro, 
menor a possibilidade de introdução de erros na pesquisa. Deve-se procu- 
rar balancear o custo de uso de recursos mais sofisticados com a qualidade e 


rapidez para a execução desta tarefa. 


Qualidade dos dados. Antes de liberar os dados para a análise deve-se ter cer- 
teza da boa qualidade dos mesmos. O escrutínio crítico dos dados passa pela 
identificação de erros de transcrição, de inconsistências e outros tipos de enga- 
nos. A correção pode ser feita com a ajuda da lembrança e interpretação dos 
pesquisadores, com o apoio de processos automáticos e, quando for necessário, 


revisitar a unidade sorteada. 


A utilização de programas automáticos de análise da consistência lógica das 
respostas é uma das ferramentas mais poderosas na detecção de vários tipos 
de erros. O conhecimento substantivo do instrumento de pesquisa associado à 
habilidade do pesquisador possibilita a construção de bons mecanismos de de- 
tecção automática de erros. Hoje em dia, com o uso de instrumentos eletrônicos 
de entrada de dados, este tipo de controle vem sendo feito no ato de coleta, 


não aceitando a entrada de dados inconsistentes. 
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Ainda nesta fase, quando programado, é necessário a utilização de procedi- 
mentos de imputação de dados. É usado principalmente para imputar valores 
baixos deixados em branco para itens fundamentais do levantamento, ou ainda 
para substituir dados incompatíveis. Como exemplo desta última situação te- 
mos procedimentos especiais para transformar dados sobre salários líquidos em 


brutos. 


Em grandes pesquisas o treinamento da equipe de transcrição e crítica deve se- 
guir os mesmos cuidados apresentados na coleta. Manuais de críticas garantem 


a homogeneidade dos critérios empregados nas correções e imputações. 


Banco de dados. Terminada a entrada e a crítica das informações coletadas, a 


base de dados está quase pronta e apta a receber os primeiros tratamentos 
estatísticos. Para completá-la e facilitar o sucesso, é muito importante que 
esta base venha acompanhada de informações precisas sobre o seu conteúdo. 
É comum encontrar no banco de dados apenas uma coleção de algarismos e 
símbolos, sem nenhuma descrição do significado das variáveis, sua formatação, 
recomendações sobre a qualidade, sistema de ponderação, etc. Desse modo, o 
banco de dados deve vir acompanhado de documentação que permita a qual- 
quer pessoa, vinculada ou não a pesquisa, usar os dados sem muita dificuldade. 


Voltaremos a tocar nesse assunto na Seção 1.11. 


1.8 Análises estatísticas 


A partir da base de dados várias análises podem ser feitas cada uma delas com seu 


objetivo específico. 


Análise exploratória. Na ausência de uma expressão melhor considerar-se-á este 


nome para indicar as primeiras manipulações estatísticas. Deve-se começar 
estudando a distribuição de frequências de cada variável (ou campo) do banco 
de dados, acompanhada de algumas medidas resumos. Além de tornar o pes- 
quisador mais íntimo dos dados, permite-lhe identificar erros não detectados 
pela crítica, a existência de elementos desajustados, quantidade de respos- 
tas em branco e com um pouco mais de sofisticação, a descoberta de possíveis 
viéses introduzidos pelos entrevistadores ou outro trabalho de campo. É muito 
comum encontrar determinadas características com alta concentração de res- 


postas em um nível de categoria, tornando praticamente inútil o uso desta 
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“variável” nos estudos. O emprego de tabelas cruzadas para algumas carac- 
terísticas decompostas pelos estratos, ou por fatores geográficos, econômicos, 
demográficos, etc., permite adquirir maior conhecimento de seus significados. 
A comparação com resultados de outras pesquisas confiáveis, tais como os 


censos, permite avaliar a qualidade do levantamento. 


Plano tabular. Com esse título entende-se àquele conjunto mínimo de tabelas e 
modelos estatísticos que foram definidos “a priori” para responder aos objetivos 


iniciais da pesquisa. 


O exercício, realizado antes da obtenção dos dados, de imaginar operacional- 
mente como os recolhidos na pesquisa responderiam aos objetivos da pesquisa, 
além de ajudar, e muito, o planejamento amostral evita divulgar os resulta- 
dos em prazos distantes do trabalho de campo tornando-os desinteressantes. 
Serve também para que sejam previamente preparados, escolhidos e testados 
os programas computacionais necessários para sua execução. Usualmente, es- 
tas primeiras respostas são fornecidas por tabelas de duplas entradas, daí o 


nome de plano tabular. 


Junto com a divulgação da aplicação do plano tabular, recomenda-se que 
também sejam apresentados os erros amostrais, permitindo avaliar qual a con- 
fiabilidade apresentada pela pesquisa. Para pesquisas com um número muito 
grande de variáveis deve-se procurar modos adequados e resumidos para di- 
vulgação dos erros. Pode-se encontrar exemplos de como divulgar os erros 


amostrais consultando os compêndios de metodologia publicados pelo IBGE. 


Análises adicionais. Os levantamentos estatísticos de um modo geral possuem 
muito mais informações do que aquelas usadas para responder aos objetivos 
iniciais. Pode-se, em uma segunda etapa, voltar a explorar os dados para 
testar novas hióteses ou mesmo para especular sobre relações inesperadas. Um 
único levantamento amostral sobre condições de vida realizado pela Fundação 
SEADE, produziu mais de 10 trabalhos em um período de 3 anos. Durante 
pelo menos 10 anos, até que um novo seja realizado, os censos demográficos são 


investigados, em várias dimensões e por pesquisadores de diversas instituições. 


Também os modelos de análise podem ser bem mais sofisticados do que sim- 
ples tabelas descritivas, desde que haja tempo para investigar a adequação e 
pertinência dos mesmos. Na mencionada pesquisa da Fundação SEADE, al- 


guns estudos foram novamente analisados empregando-se modelos para dados 
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categóricos e outros modelos multivariados. 


Uma das consequências mais importantes da análise dos dados é a possibilidade 
de criação de novas variáveis (índices) resultante da combinação de outras, e 
que descrevam de maneira mais adequada os conceitos pretendidos. Voltando 
à pesquisa do SEADE, usaram-se combinações do grau de educação do chefe e 
de um segundo membro da família para criar um grau de educação da família. 
De modo mais sofisticado, e com técnicas estatísticas criou-se uma condição 


de qualidade de emprego da família. 


1.9 Erros 


Todo levantamento amostral ou não, está sujeito a produzir diferenças entre o 
parâmetro populacional 6, de interesse, e o valor t empregado para estimá-lo. A 
diferença t — 0 é considerada como o erro da pesquisa. Vários fatores podem agir 
sobre esta diferença e faz parte da avaliação detectá-las, tentar medí-las e avaliar 
suas consequências. Para facilitar a exposição, dividir-se-ão os fatores que afetam 


esta diferença em dois grandes grupos: 
e erros devido ao plano amostral; 


e erros devidos à outros fatores. 


O primeiro deles, já mencionado na Seção 1.5.6, talvez seja equivocadamente 
chamado de erro. Melhor seria chamá-lo de desvio, objeto controlado pelos processos 
estatísticos que serão devidamente tratados nos demais capítulos deste livro. Estes 
desvios tendem a desaparecer com o crescimento do tamanho da amostra. 

Os erros do segundo grupo são resultantes de inadequações dos processos de 
mensuração, entrevistas, codificações, etc. Eles permanecem mesmo em censos po- 
pulacionais. Eles serão analisados nas seções abaixo. 

A qualidade do levantamento está associada à capacidade do pesquisador em 
evitar, ou se não for possível, procurar manter esta diferença em níveis aceitáveis. 
O conceito mais amplo da qualidade do levantamento deveria ser expresso em uma 
medida do erro total, contendo a mensuração dos erros amostrais e avaliações, qua- 
litativas ou quantitativas, dos possíveis efeitos dos demais erros. Para estes últimos 
é extremamente desejável que seja feita uma interpretação substantiva das possíveis 


consequências das direções e magnitudes dos seus vieses. 
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1.9.1 Erros amostrais 


Conforme já definido anteriormente, considera-se um erro amostral aquele desvio 
devido apenas ao processo amostral, e não de problemas de mensuração e obtenção 
das informações. 

Quando o plano adotado é do tipo probabilístico, a qualidade traduz-se pela 
estimativa do seu erro padrão, como já foi definido anteriormente. Boa parte deste li- 
vro dedicar-se-á ao estudo do desenvolvimento de técnicas para mensurar este erro. 
Entretanto, para alguns planos amostrais bastante complexos o conhecimento es- 
tatístico existente não é suficiente para prover expressões explícitas para estes erros, 
sendo necessário o recurso de técnicas especiais aproximadas. Às vezes, por ig- 
norância ou facilidade de cálculo, emprestam-se fórmulas de um plano mais sim- 
ples para o cálculo do erro padrão de outros planos amostrais mais complexos, 
praticando-se um “erro técnico”. Quando esta escolha é consciente sugere-se que 
o pesquisador informe este fato, acompanhado do possível tipo de distorção intro- 
duzida por esta decisão. 

Já para planos não probabilísticos o maior desafio, e de difícil aceitação é o 
de estender o resultado da amostra para a população e o de prover uma teoria para 
mensurar o erro cometido. Esta avaliação é feita usualmente através do arrazoado 


qualitativo, nem sempre convincente. 


1.9.2 Erros não amostrais 


Quando o desvio ocorre devido a fatores independentes do plano amostral, e que 
ocorreriam mesmo se a população toda fosse investigada, serão considerados como 
erros não amostrais. Eles podem aparecer em qualquer etapa do levantamento amos- 
tral (definições, coleta de dados, codificações e análise), e se não forem identificados 
e avaliadas as possíveis distorções introduzidas, podem comprometer seriamente um 
plano amostral tecnicamente perfeito. 


Um modo de analisar este tipo de erro é explicar os seguintes pontos: 
i. a etapa onde o erro ocorreu; 
ii. quais as causas possíveis; 
iii. a correção empregada, caso haja; 


iv. e a avaliação qualitativa e/ou quantitativa, dos efeitos sobre os resultados. 


Alguns autores preferem agrupar os erros na seguinte classificação dicotômica: 


a. erros de observação, ocorridos durante o levantamento dos dados; 
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b. outros erros, ocorridos em outros momentos. 


Recomendamos ao leitor interessado buscar mais informações em livros como 
o de Jessen (1978). 
Apresenta-se abaixo, de modo bem abreviado, algumas possíveis ocorrências 


de erros não amostrais. 
A. Unidades perdidas (falta de resposta), fatores para não resposta 


i. Falta de resposta total 
a. Falta de contato com a unidade 
b. Recusa 
c. Abandono durante a pesquisa 
d. Incapacidade em responder 
e. Perda de documento 
ii. Falta de resposta parcial 
a. Recusa em questões sensíveis - renda 
b. Incompreensão 


c. Dados incoerentes 
B. Falhas na definição e administração. 


a. Sistemas de referência 
i. Erros de omissão (cobertura incompleta), exclusão de elementos de 
interesse. Resulta de diferenças entre as diversas populações. 
ii. Erros de comissão. Inclusão de elementos não sorteados ou de outras 
populações. 
b. Efeito do entrevistador 
c. Insuficiência do questionário - redação 


d. Erros de codificação e digitação 
C. Avaliação das consequências 


a. Comparação com resultados de outras pesquisas 
b. Efeito do processo de imputação caso tenha sido usado 


. Programas de consistência de dados 


e) 


aA 


. Volume de não respondentes 


e. Diferença de perfil de respondentes e não respondentes 
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1.10 Apresentação dos resultados 


O relatório do plano amostral presta contas para uma determinada audiência sobre os 
procedimentos adotados para escolha e coleta das unidades elementares portadoras 
dos dados de interesse do levantamento. 

Um plano amostral tecnicamente perfeito e corretamente aplicado pode não ter 
sua qualidade reconhecida devido a um relatório mal escrito e/ou mal organizado. As 
propostas para desenvolver competências em se comunicar são bem conhecidas e não 
serão abordadas aqui. Apenas insiste-se que consultem as bibliotecas especializadas 
e pratiquem as recomendações sugeridas. Há muita similaridade entre relatórios 
descrevendo planos amostrais e outros tipos de relatórios científicos, desse modo, 
sugerimos consultar também livros que tratam deste assunto, tais como Eco (1977) 
ou Babbie (1999). Ressaltam-se a seguir na elaboração do relatório alguns pontos 
específicos que devem ser considerados. 

Como os relatórios podem ter diferentes formatos e tamanhos, deve-se em 
primeiro lugar decidir para qual audiência ele está sendo escrito. Caso seja dirigido 
a um público afeito à linguagem de amostragem será possível usar um vocabulário 
mais técnico do que aquele destinado ao público leigo. 

Algumas vezes o relatório do plano amostral é apenas uma pequena parte 
dentro da seção de metodologia, devendo então ser bastante conciso e direto. Outras 
vezes ele é o produto final de seu trabalho, devendo incluir a descrição de todas as 
etapas bem como a descrição, construção e análise do banco de dados, e, neste caso 
o relatório será muito mais amplo e detalhado. 

Sugere-se como prática de trabalho, escrever sempre um relatório completo, 
elaborado conforme o desenrolar do levantamento. Ele servirá como uma espécie de 
diário e memória. A partir dele você poderá extrair outros produtos que sejam de 
interesse. Você poderá usar os itens mencionados no Apêndice B como guia, sem a 
necessidade de respeitar a ordem apresentada. 

Resumindo, qualquer que seja o tipo de relatório usado, ele deve mencionar 
pelo menos os seguintes itens: propósitos, as diversas populações, sistema de re- 
ferência, unidades amostrais, plano de seleção, procedimento de coleta, desempenho 
da amostra, tamanho, sistema de ponderação, fórmulas para os erros amostrais e 
avaliações dos possíveis efeitos dos erros não amostrais. 

Quando o relatório também inclui a análise, distinga bem os resultados des- 
critivos da amostra dos que fazem inferências populacionais. Para grandes volumes 


de dados, onde a apresentação dos erros amostrais pode poluir e dificultar a lei- 
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tura de cada tabela, sugere-se a adoção de procedimentos agregados que avaliem 
erros aproximados globais. Grandes institutos de pesquisa costumam usar este tipo 
de apresentação para os erros amostrais (consulte, por exemplo, as publicações do 
IBGE). 


1.11 Divulgação do banco de dados (disponibilidade) 


Falta à maioria dos bancos de dados obtidos por levantamentos amostrais, uma do- 
cumentação bem elaborada “que descreva a utilidade das variáveis e liste os vínculos 
entre os códigos e os atributos que compõem as variáveis” (Babie, 1999), conforme 
mencionado na Seção 1.7. Essa ausência deve-se ao fato de que na maioria das vezes, 
os dados serão produzidos e analisados por uma única pessoa ou grupo, tornando 
aparentemente dispensável esse trabalho. Entretanto, esse descuido já causou mui- 
tos prejuízos, tempo perdido e duplicação de trabalho ao se analisar o mesmo banco 
de dados em ocasiões distintas. 

Manter um banco de dados organizado e documentado deve ser uma preo- 
cupação prioritária dos “amostristas” e dos analistas de dados. Os primeiros usam- 
no para bem caracterizar os sistemas de ponderação e recodificções, e os segundos 
para descrever as recodificações, novas variáveis e indicadores criados. 

O Banco de Dados junto com esse dicionário descritivo permite oferecer mais 
um serviço: disponibilizar a pesquisa para um público maior, graças as facilidades 
oferecidas hoje pela comunicação eletrônica. Como orientação para organizar esse 


serviço, sugere-se consultar os bancos de dados disponíveis no IBGE e SEADE. 


Exercícios 


1.1 Apresente uma questão ligada à sua área de interesse e que poderia ser res- 
pondida por um levantamento amostral. Aproveite para definir claramente 
quais seriam os seguintes conceitos na sua pesquisa: 

a. unidade de pesquisa; 

b. população; 

c. instrumento de coleta de dados; 
d. unidade respondente; 


e. possível sistema de referência; 
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1.2 


1.3 


1.4 


1.5 


f. unidade amostral mais provável; 


g. unidades amostrais alternativas. 


Discuta também como você fixaria o tamanho da amostra a outros tópicos que 


achar relevantes. 


Desenhe um plano amostral, ressaltando os pontos discutidos neste capítulo 
para responder ao seguinte problema: “Deseja-se conhecer o número total de 


palavras existente no livro texto Bolfarine e Bussab”. 


Planeja-se uma pesquisa para determinar a proporção de crianças do sexo 
masculino com idade inferior a 15 anos, moradoras de uma cidade. Sugerem- 


se três procedimentos: 


a. Para cada menino de uma amostra de n meninos (retirada da população 
de meninos menores de 15 anos) pede-se que informe quantos irmãos e 


irmãs ele tem; 


b. Toma-se uma amostra de n famílias e pergunta-se o número de meninos 


e meninas menores de 15 anos existentes; 


c. Procura-se casualmente n crianças de 15 anos e além de anotar o sexo do 
entrevistado pergunta-se o número de irmãos e irmãs que eles possuem 


na faixa etária de interesse. 


Analise os planos amostrais acima e justifique suas afirmaçés. Diga e justifique 


qual deles você usaria, ou então proponha um outro. 


A comissão de pós-graduação de sua universidade pretende fazer uma pes- 
quisa cuja população alvo é formada por todos os alunos de pós-graduação. 
Um dos principais objetivos é estimar a proporção dos favoráveis a uma de- 
terminada mudança nas exigências do exame de qualificação, e espera-se que 
essa proporção seja da ordem de 5%. Imagine a situação na sua universidade 
e proponha um plano amostral, destacando: sistema de referência, tamanho 


da amostra, UPA, USA, fórmulas de estimadores e variâncias. 


Sugira um esquema amostral aproximado para escolher amostras aleatórias 


nos seguintes casos: 


a. Arvores em uma floresta; 
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1.6 


1.7 


1.8 


1.9 


b. Crianças abaixo de 5 anos e que tiveram sarampo; 


c. Operários em indústrias têxteis. 


Em cada caso, sugira uma variável que poderia ser estudada, qual a lista de 
elementos a que você teria acesso e faça as suposições (razoáveis) necessárias 


para resolver o problema. 


Uma rede bancária tem filiais espalhadas por todo o país e seu pessoal es- 
pecializado (cerca de 20 mil) é removido frequentemente de um ponto para 
outro. Deseja-se selecionar uma amostra de 10% do atual pessoal especiali- 
zado, para uma pesquisa contínua durante os próximos anos. Pretende-se obter 
informações sobre o progresso da firma, mudança de emprego, etc. A seleção 
de uma amostra aleatória de 2 mil indivíduos seria muito cara, por questões 
de identificação. Foi proposto então que se sorteasse uma letra (digamos S) e 
todos os funcionários com sobrenomes começando com essa letra fariam parte 
da amostra. A inicial do sobrenome tem a vantagem de ser facilmente identi- 
ficável, porque as fichas dos funcionários são arquivadas em ordem alfabética. 
Quais as críticas que você faria a este plano? Sugira um plano “melhor”, mas 
ainda baseado nas vantagens da ordem alfabética. Descreva sucintamente o 


seu novo plano. 


Descreva sucintamente como pode ser incorporado num plano amostral o co- 


nhecimento de variáveis auxiliares da população. 


O IME-USP formou no ano passado a sua sétima turma de bacharéis em Es- 
tatística e deseja fazer um levantamento através de amostra, com múltiplos 
propósitos. Os principais objetivos são: estimar a proporção de formandos 
que realmente exercem a profissão e estimar o salário médio. Proponha um 
esquema amostral e aponte as dificuldades que provavelmente serão encontra- 


das. 


Faça uma lista de pontos essenciais para propor, executar e analisar um le- 


vantamento amostral. 


1.10 Um pesquisador pretende estimar o consumo médio de água por domicílio 


em uma cidade. Discuta as vantagens e desvantagens em usar as seguintes 


UPA's: 
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a. Unidade domiciliar; 
b. Blocos de domicílios: casa, prédio de apartamentos, vilas, etc; 


c. Quarteirões. 


1.11 Um engenheiro florestal quer estimar o total de pinheiros de uma área reflo- 
restada com diâmetro superior a 30 cm. Discuta como planejar uma pesquisa 


amostral para esse problema. 


1.12 Um especialista em trânsito quer estimar a proporção de carros com pneus 
carecas na cidade de Pepira. Ele poderá usar sorteio de carros ou grupos de 
carros em estacionamento ou na rua. Discuta as vantagens de um ou de outro 


procedimento. Qual você usaria? 


1.13 Discuta os méritos em usar entrevista pessoal, por telefone, correio ou inter- 


net como método de coleta de dados para cada uma das situações abaixo. 
a. Diretor de marketing de uma rede de televisão quer estimar a proporção 
de pessoas no país assistindo a determinado programa. 


b. Um editor quer conhecer a opinião dos leitores a respeito dos tipos de 


notícias do seu jornal. 


c. Um departamento de saúde quer estimar o número de cachorros vacinados 


contra a raiva no ano passado. 
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Capítulo 2 


Definições e notações básicas 


Neste capítulo considera-se formalmente os conceitos introduzidos no capítulo ante- 
rior. Estas definições serão usadas com bastante frequência nos capítulos seguintes. 
A primeira seção define os parâmetros (funções paramétricas) populacionais de inte- 
resse, quantidades estas que são funções das características populacionais associadas 
a cada unidade. Nas seções seguintes tratam-se das quantidades relacionadas com 
amostras que são os estimadores e estimativas dos parâmetros populacionais. 

Ressalta-se que estas apresentações estarão restritas primordialmente às po- 
pulações “finitas”, embora sejam facilmente exportáveis para as populações infini- 
tas (modelos teóricos, distribuições de probabilidade). A teoria e abordagem, nes- 
tas últimas populações, são bastante exploradas em livros de inferência estatística, 
básicos ou avançados, veja, por exemplo, Bussab e Morettin (2004). Para estudos 
mais aprofundados, distinções e integração dos dois conceitos sugere-se o livro de 
Cassel et al (1977). 


2.1 População 


2 


População ou Universo é o conjunto U de todas as unidades elementares de 
interesse. É indicado por 
Uas Deea NE 


onde N é o tamanho fixo e algumas vezes desconhecido da população. 

Elemento Populacional é a nomenclatura usada para denotar qualquer ele- 
mento i € U. É também conhecido por unidade elementar. 

Característica(s) de Interesse será usado para denotar a variável ou o 


vetor de informações associado a cada elemento da população. Será representado 
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por 
Yi, icu, 


ou, no caso multivariado, 
Yo (Yie aip) iEU. 


A unidade elementar pode ser, por exemplo, estabelecimento agrícola e a carac- 
terística de interesse a variável produção (em dinheiro) agrícola ou o número de 
tratores, ou ainda a variável qualitativa “tipo de apropriação da terra” (dono, me- 
eiro, alugado, etc.). 

Parâmetro Populacional é a nomenclatura utilizada para denotar o vetor 


correspondente a todos os valores de uma variável de interesse que denota-se por 
D= (Yi, --, YN), 

no caso de uma única característica de interesse, e pela matriz 
D = (Yı,. £ <- Yy), 


no caso em que para cada unidade da população tem-se associado um vetor Y; de 
características de interesse. 

Função Paramétrica Populacional é uma característica numérica qualquer 
da população, ou seja, uma expressão numérica que condensa funcionalmente os Y;’s 


(ou Y;'s), i € U. Tal função numérica será denotada por 
(D). 


Esta função pode ser, por exemplo, o total, as médias, ou ainda o quociente de dois 
totais. E comum utilizar-se a expressão parâmetro populacional de interesse, ou 


simplesmente parâmetro populacional. 


Exemplo 2.1 Considere a população formada por três domicílios U = {1,2,3} e 
que estão sendo observadas as seguintes variáveis: nome (do chefe), sexo, idade, 
fumante ou não, renda bruta familiar e número de trabalhadores. A população está 
descrita na Tabela 2.1. 

Portanto, para os dados descritos na Tabela 2.1, os seguintes parâmetros populaci- 


onais podem ser definidos: 


i. para a variável idade, 
D = (20,30,40) = Y; 
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ii. 


Tabela 2.1: População de três domicílios 


Variável Valores Notação 
unidade 1 2 3 i 
nome do chefe Ada Beto Ema A; 
sexo! 0 1 0 Xi 
idade 20 30 40 Y; 
fumante? 0 1 1 Gi 
renda bruta familiar 12 30 18 F; 
nº de trabalhadores 1 3 2 T; 


1 0: feminino; 1: masculino. 


2 0: não fumante; 1: fumante. 


12 30 18 
D = 
k 3 a 


para o vetor (F;, T;)', 


Com relação à funções paramétricas populacionais, tem-se: 


i. 


ii. 


iii. 


idade média, 
= 20+30+40 + 


oCY) = 0(D) - 


30; 
média das variáveis renda e número de trabalhadores, 
12+30+18 20 
vm) = ( E P 
3 


renda média por trabalhador, 


12 1 
Dis a a 
1+3+2 


Para uma variável de interesse, os parâmetros populacionais mais usados são: 


. total populacional, 


. média populacional, 
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c. variância populacional, representada por 


ou, ÀS vezes, 
1 AN 
AD) =9(V) == 5 MG -u). 


gel. 


Conforme será visto nos capítulos seguintes, a variância populacional aparece 


diretamente na expressão das variâncias dos estimadores considerados. 


Para vetores bidimensionais, isto é, duas variáveis de interesse, representadas 


por (X,Y), são bastante usuais os seguintes parâmetros: 


d. covariância populacional, 


9(D) = oxy = Cov|X,Y] 


1N 
= q (Xi ux) Ki — uy), 
i=1 
ou, ÀS vezes, 
1 A 
9(D) = Sxy = > (Xi hx) (VN — my), 
N-11 
onde ux = DM X; /N e uy = LÀ Y;/N denotam as médias populacionais 


correspondentes às variáveis X e Y, respectivamente. 
Pode-se também ter interesse pela: 


e. correlação populacional, 


oxoy' 
f. razão populacional, 
z 
oD) =% =R, 
TX HX 


N N A 


g. razão média populacional, 
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2.2 Amostras 


Considere uma população fixa 
uU = {1,2,..., N}. 


Definição 2.1 Uma seqüência qualquer de n unidades de U, é denominada uma 


amostra ordenada de U, isto é, 
S= (ki, kn) 


tal que 
k; €U. 
O rótulo k; é chamado de i-ésimo componente de s. 


Exemplo 2.2 Seja U = {1,2,3}. Os vetores sı = (1,2), s2 = (2,1), s3 = (1,1,3), 


s4 = (3) e s5 = (2, 2,1,3,2) são exemplos de amostras ordenadas de U. 


Definição 2.2 Seja fi(s) a variável que indica o número de vezes (freqüência) que 
a i-ésima unidade populacional aparece na amostra s. Seja di(s) a variável binária 


que indica a presença ou não da à-ésima unidade na amostra s, isto é, 


ie 1, TEER 
0, seiés 


Exemplo 2.3 Usando as amostras do Exemplo 2.2, tem-se para a variável freqüência 
f que fi(sı) = 1, fo(si) = 1, fs(s1) = 0, fi(ss) = 1, f2(s5) = 3 e fa(s5) = 1. Com 
relação a variável presença ð, temos, por exemplo, que ói(s1) = 1, do(s1) = 1, 


ô3 (s1) — 0, e d1(s5) = 1, do(s5) = 1, ô3 (S5) = 


Definição 2.3 Chama-se de tamanho n(s) da amostra s, a soma das freqüências 


das unidades populacionais na amostra, isto é, 


N 
n(s) = 5 fils). 
i=1 


Chama-se de tamanho efetivo v(s) da amostra s ao número de unidades populacio- 


nais distintas presentes na amostra s, isto é, 


N 
v(s) = 5 di(s). 
i=1 
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Exemplo 2.4 Usando os dados do Exemplo 2.3, observa-se que: 

n(sy) =1+1+0=2, enquanto que v(sı) =1+1+0=2. 
Também, 

n(ss)=1+3+1=5 enquanto que v(s5)=1+1+1=3. 
Verifique que: n(s2) = 2 e v(s2) = 2, enquanto que n(s4) = 1 e v(s4) = 1. 


Definição 2.4 Seja S(U), ou simplesmente S o conjunto de todas as amostras 
(segiiências ordenadas) de U, de qualquer tamanho. E Sa(U), a subclasse de to- 


das as amostras de tamanho n. 
Exemplo 2.5 (Continuação do Exemplo 2.4) Como U = {1,2,3}, então: 


S(U) = {(1), (2), (3), (1,1), DIAL AD 2 28) ad 


S2(U) = {(1, 1), (1, 2), (1,3), (2, 1), (2, 2), (2,3), (3, 1), (3, 2), (3; 3)}- 


Quando não houver dúvidas em relação ao universo, usa-se a notação simpli- 
ficada: 
S = {1,2,3, 11, 12, 13,21, .. . ,22132,...} 


S2 = {11, 12, 13, 21, 22, 23, 31, 32, 33}. 


Algumas vezes, como será visto adiante, é interessante trabalhar com amostras 
não ordenadas. Por exemplo, as amostras (1,2) e (2,1) são consideradas a mesma. 
No caso de amostras não ordenadas sem reposição, uma amostra é um subconjunto 
de elementos de U. O número de amostras ordenadas de tamanho n, com reposição, 


é N”, enquanto que, sem reposição, é dado pelo coeficiente binomial (E ). 


2.3 Planejamento amostral 


Conforme mencionado anteriormente, o objetivo é apresentar procedimentos amos- 
? 

trais probabilísticos, ou seja, aqueles que permitem associar a cada amostra uma 

probabilidade conhecida de ser sorteada. O modo como essas probabilidades são as- 


sociadas é que irá definir um planejamento amostral. Isto leva à seguinte definição: 
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Definição 2.5 Uma função P(s) definida em S(U), satisfazendo 
P(s)>0, para qualquer sesS(U) 


e tal que 


[s;seS) 


é chamado um planejamento amostral ordenado. 


Exemplo 2.6 Considere U = {1,2,3} e o respectivo S(U) construído no Exemplo 


2.5. Considere os seguintes exemplos de planejamentos amostrais: 


e Plano A, 
P(11) = P(12) = P(13) = 1/9 
P(21) = P(22) = P(23) = 1/9 
P(31) = P(32) = P(33) = 1/9 
P(s) = 0, para as demais s € S; 
e Plano B, 


P(12) = P(13) = P(21) = P(23) = P(31) = P(32) = 1/6 
P(s) = 0, para as demais s € S; 


e Plano C, 


P(332) = P(312) = 1/27 
) = P(131) = P(311) = 1/27 
313) = P(331) = P(333) = 1/27 


s)= 0, para as demais s € S; 


132) = 
113) = 


= P( 
= P( 
= P( 


e Plano D, 
P(12) = 1/10 P(21) = 1/6 
(13) = 1/15 P(31) = 1/12 
P(23) = 1/3 P(32) = 1/4 
( 


s) = 0, para as demais s € S; 


e Plano E, 
P(12) = P(32) = 1/2 
P(s) = 0, para as demais s € S. 
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Do exposto acima constata-se que é possível criar infinitos planejamentos 
amostrais. Entretanto, descrever probabilidades associadas a cada amostra passa 
a ser uma tarefa bastante árdua, principalmente para populações grandes. Seria 
muito mais fácil se existissem descrições que permitissem associar, ou calcular, as 
probabilidades correspondentes a cada amostra de S. No Exemplo 2.6, plano C, 
o planejamento amostral poderia ser descrito mais facilmente da seguinte maneira: 
“sorteie uma unidade após a outra, repondo a unidade sorteada antes de sortear a 
seguinte, até o surgimento da unidade 2 (i = 2) ou até que 3 unidades tenham sido 
sorteadas”. É fácil verificar que com esta descrição reproduz-se as probabilidades 
consideradas naquele exemplo. 

Podem ser usados vários tipos de descritores para representar as probabili- 
dades associadas a cada amostra. Um deles muito utilizado na abordagem clássica 
da amostragem é a descrição do planejamento através das regras para o sorteio da 


amostra. 


Exemplo 2.7 Seja = {1,2,3}, como no Exemplo 2.6, e a seguinte regra de sorteio: 


i. Sorteia-se com igual probabilidade um elemento de U, e anota-se a unidade 


sorteada; 


ii. Este elemento é devolvido à população e sorteia-se um segundo elemento do 


mesmo modo. 


Com estas regras, a probabilidade de ocorrer a amostra 11, será 


P(11) = P(1 no 1º sorteio)P(1 no 2º sorteio|l no 1º sorteio) 
Dali 
= 3°33 9 


De modo análogo, conclui-se que só terão probabilidades não nulas, as amostras de 
Sa, isto é, 
Sz = {11, 12, 13, 21, 22, 23, 31, 32, 33}. 


Quanto ao planejamento amostral, este será dado por 


pre 1/9, e s 

0, seiés 
Observe que este é o mesmo plano amostral descrito no Exemplo 2.6, plano A. Inci- 
dentalmente, este plano amostral, um dos mais simples, é conhecido como Amostra- 
gem Aleatória Simples, com reposição, e será estudado detalhadamente no próximo 


capítulo. 
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Observa-se que para a maioria dos planejamentos, atribui-se probabilidade 
nula para muitas amostras de S. Por isso é comum, ao apresentar um plano amostral 
A, restringir S a alguma subclasse S4, contendo apenas as amostras s, tais que 
P(s) > 0. Isto facilita bastante a apresentação dos resultados. É evidente que 
quanto mais complexas as regras que descrevem os planos amostrais, mais difíceis 
serão os procedimentos para a determinação das probabilidades associadas ao espaço 
amostral S. Neste livro serão abordados os planos amostrais mais simples e mais 
usados, e que servem de base para planos amostrais mais complexos. 

Outro conjunto de planos muito úteis e simples, são aqueles de tamanho fixo, 
ou seja, possuem probabilidades diferentes de zero apenas para a subclasse Sn (veja 
o Exemplo 2.7). Será visto que as suas probabilidades são mais simples de serem 


determinadas. 


Exemplo 2.8 Retorne aos dados do Exemplo 2.1, lembrando que U = {1,2,3} e que 
o domicílio 1 tem um trabalhador, o 2 tem três enquanto que o 3 tem dois. Considere 
o seguinte plano amostral 4, que será mais tarde chamado de PPT (Probabilidade 


Proporcional ao Tamanho). 


i. Sorteia-se um elemento de U com probabilidade proporcional ao número de 


trabalhadores; 


ii. Sem repor o domicílio selecionado, sorteia-se um segundo também com proba- 


bilidade proporcional ao número de trabalhadores. 


Então 


Sa = (12,13,21,23,31,32), 


de modo que 


P(12) = P(1 no 1º sorteio)P(1 no 2º sorteio|1 no 1º sorteio) 
1 3 1 
T 6“5710 
De modo similar, 

P(21)=3xi=4, 
P(13)=4 x2 = $, 
P(31)=x i= $, 
P(23)=ixi=se 
P(3)=êxi=i. 


Observe que este plano é o mesmo apresentado no Exemplo 2.6, plano D. 


46 Definições e notações básicas 


Deste último exemplo, observa-se claramente a facilidade em calcular as pro- 
babilidades associadas com os planos amostrais “equiprobabilisticos”, e aqueles em 
que reposição está presente nas regras de seleção. Considera-se equiprobabilísticos 
aqueles planos 4, onde cada s € S4 tem a mesma probabilidade de ser sorteada. 

Os tipos de planejamentos amostrais mais utilizados e que serão abordados 


com mais detalhes nos capítulos seguintes são: 


Amostragem Aleatória Simples (AAS). Seleciona-se sequencialmente cada uni- 
dade amostral com igual probabilidade, de tal forma que cada amostra tenha a 


mesma chance de ser escolhida. A seleção pode ser feita com ou sem reposição. 


Amostragem Estratificada (AE). A população é dividida em estratos (por exem- 
plo, pelo sexo, renda, bairro, etc.) e a AAS é utilizada na seleção de uma 


amostra de cada estrato. 


Amostragem por Conglomerados (AC). A população é dividida em subpo- 
pulações (conglomerados) distintas (quarteirões, residências, famílias, bairros, 
etc.). Alguns dos conglomerados são selecionados segundo a AAS e todos os 
indivíduos nos conglomerados selecionados são observados. Em geral é menos 
eficiente que a AAS ou AE, mas por outro lado, é bem mais econômica. Tal 
procedimento amostral é adequado quando é possível dividir a população em 


um grande número de pequenas subpopulações. 


Amostragem em Dois Estágios (A2E). Neste caso, a população é dividida em 
subpopulações como na AE ou na AC. Num primeiro estágio, algumas sub- 
populações são selecionadas usando a AAS. Num segundo estágio, uma amos- 
tra de unidades é selecionada de cada subpopulação selecionada no primeiro 
estágio. A AE e a AC podem ser consideradas, para certas finalidades como 


casos particulares da A2E. 


Amostragem Sistemática (AS). Quando existe disponível uma listagem de in- 
divíduos da população, pode-se sortear, por exemplo, um nome entre os 10 
primeiros indivíduos, e então observar todo décimo indivíduo na lista a partir 
do primeiro indivíduo selecionado. A seleção do primeiro indivíduo pode ser 
feita de acordo com a AAS. Os demais indivíduos que farão parte da amostra 


são então selecionados sistematicamente. 


Também serão estudados os estimadores razão e regressão para o total e a 


média populacionais, que exploram uma possível relação linear entre a variável de 
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interesse y e alguma variável auxiliar x, usualmente conhecida como variável inde- 


pendente na teoria de regressão linear. 
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Como já foi discutido, o objetivo principal da amostragem é adquirir conhecimentos 
sobre variáveis (características) de interesse, e desse modo, é necessário caracterizar 
as variáveis de interesse também na amostra. Conforme já foi comentado na Seção 
2.1, associada a cada unidade i, tem-se uma característica Y;, que pode ser reunida 


na matriz (ou vetor) de dados populacionais D. Agora, fixada uma amostra s, 
S = (k1, ko, “as -> kn), 
sabe-se que associado a cada elemento kj tem-se um vetor de características Y'p.,. 


Definição 2.6 Chama-se de dados da amostra s à matriz ou vetor das observações 


pertencentes a amostra, isto é, 
ds = (Yki s Yko, pai XY kr) = (Yki, ki E s). 


Quando s percorre todos os pontos possíveis de um plano amostral SA, tem-se asso- 


ciado um vetor aleatório que será representado por 


d =y = (Oise 


onde y; é a variável aleatória que indica os possíveis valores que podem ocorrer na 
i-ésima posição da amostra. 
Observação: Quando as observações são multidimensionais, os dados da amostra 


passam a ser a matriz ds = (Yk,i E s), e tem-se associado a matriz aleatória 


d = (Y1, Yn). 


Neste texto considera-se que as n unidades são amostradas seqüencialmente, 


de modo que associadas às n unidades selecionadas têm-se as variáveis aleatórias 


(2.1) Yl- -3 Yn, 


onde cada y; pode assumir valores do parâmetro populacional D = (Y1,..., Yn). 


Para uma particular amostra s, tem-se que (y1,...,Yn) = ds. 
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Definição 2.7 Qualquer característica numérica dos dados correspondentes a amos- 


tra s é chamada de estatística, ou seja, qualquer função h(ds) que relaciona as 


observações da amostra s. 


Exemplo 2.9 Voltando ao Exemplo 2.1, considere a amostra s = (12). Desse modo, 


tem-se para o vetor (Fj;, T;)' a seguinte matriz de dados da amostra: 


12 30 
ds = | 


As médias 
— 12+30 
= = 21 
f 2 
e 
| 
-oT 
2 
ou, a razão 
12 + 30 
= = 10,5, 
E: 


são exemplos de estatísticas calculadas na amostra acima. 


Escolhido um plano amostral A, tem-se associado o par (S4, P4) dos respec- 
tivos pontos amostrais e suas probabilidades. Fixada agora uma estatística h(ds), 
quando s percorre S4, ter-se-á associado uma variável aleatória H (ds) associada ao 


par (S4, P4). E considere também a notação 
pn = Pals € Sa; H(ds) = h), 


que denota a probabilidade sobre o conjunto de todas as amostras s tais que H(ds) = 
h. Conhecendo-se todos os valores de h e as suas respectivas probabilidades, tem- 
se bem identificada a (distribuição da) variável aleatória H (reveja o conceito de 


variável aleatória, por exemplo, em Bussab e Morettin, 2004). Tem-se então: 


Definição 2.8 4 distribuição amostral de uma estatística h(ds) segundo um plano 
amostral A, é a distribuição de probabilidades de H(ds), definida sobre SA, com 
função de probabilidade dada por 


pn = Pa(s € Sa; H(ds) = h) = P(h). 
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Exemplo 2.10 Para o conhecido exemplo onde U = {1,2,3} com os dados amos- 


12 30 18 F; 
D= = . 
E T; 


i € U, considere a estatística r = h(ds) como sendo a razão entre o total da renda 


trais 


familiar e o número de trabalhadores na amostra. Considere também os planos 
amostrais A e B estudados no Exemplo 2.6. Assim, encontram-se as seguintes dis- 


tribuições amostrais: 


a. Plano amostral A (A=AAS com reposição=A ASc) 


s: 11 12 13 21 22 23 31 32 33 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 
h(ds)=r: 12 10,5 10 105 10 96 10 96 9 


de modo que 


Tabela 2.2: Distribuição amostral de r na AASc 
h: 9 96 10 105 12 


pa: 1/9 2/9 3/9 2/9 1/9 


b. Plano amostral B (A=AAS sem reposição=A ASs) 


s: 12 13 21 23 31 32 
P(s): 1/6 1/6 1/6 1/6 1/6 1/6 
h(do)=r: 10,5 10 105 96 10 96 


de modo que 


Tabela 2.3: Distribuição amostral de r na AASs 
h: 9,6 10 10,5 


par: 1/3 1/3 1/3 


A distribuição amostral, e conceitos derivados, são básicos para o uso e ava- 
liação inteligente dos procedimentos amostrais. Eles serão usados aqui para avaliar 
as propriedades e vantagens de um plano amostral, e/ou estatística, sobre seus con- 


correntes. 
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Considere dados: um plano amostral A, uma estatística H(ds), s € S4 e seja 
ph à função de probabilidade correspondente ao plano amostral. Então, o valor 


esperado (média) da variável H será 


EslH] = X hpr, 


com a somatória estendida a todos os valores distintos de h. Pode-se modificar um 
pouco esta definição para expressá-la em função das probabilidades de cada amostra. 
É fácil verificar, para s € SA, que 
pn = Pa(se Sa; H(ds)= h) 
= 5, P(H(d)=h)= 5 País) 


(s;seSA+ (seSa;h(ds)=h) 


e que permite escrever a expressão acima do seguinte modo: 


EslH|= X` h(ds)P4(8). 
{s;sES4} 


Quando não houver dúvidas, deixar-se-á de lado o índice do somatório. 


Também são importantes os seguintes conceitos: 


e variância de uma estatística H, ou seja, 


VaralH]= Y (h(do) - EalH]} Pale); 
{s;sES4} 


e quando houver duas estatísticas H(ds) e G(ds), pode-se usar a 


e covariância ou correlação, que são, respectivamente, 


CovalH,G]= Y {h(ds) — Ea[H]) {g(ds) — EA[G]) Pa(s) 


sESA 


CovalH, G] 


Corra[H,G] = vVVaralH|VaralG] 


Exemplo 2.11 Usando os dados do exemplo anterior e o plano amostral (a), tem- 


se: 


1 1 1 91,2 
E = 12- + 10,5- +... +9- = DC “10,13 
AASelr] 9 + 10, gt T 9 9 ; 
e 
21 21 21 a] 
Varaaselr] = (12 — 10,13)25 + (10,5 — 10,13)25 +... + (9 — 10, 13)?” = 0, 6289. 
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Tabela 2.4: Distribuição amostral de f na AASc 
s: 11 12 13 21 22 23 31 32 33 
f: 12 21 15 21 30 24 15 24 18 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 


Considere agora também a estatística f, média da variável F na amostra observada, 


cuja distribuição amostral é apresentada na Tabela 2.4. Tem-se EAaAsc|f] = 20, 


Varaasc| f] = 28 e 


Covaaselr, f] = (12- 10,13)(12 20); + (10,5 — 10,13)(21 — 20); + 
+(9 — 10,13)(18 — 20); = —1,80 
Deste modo, tem-se que 
Corraaselr, f] eo = —0, 4289. 


J0, 6289 x 28 


Para outras propriedades de r veja o Exercício 2.4. 


Definido um plano amostral A, as variáveis f;(s) e d;(s), da Definição 2.2, 
também passam a possuir uma distribuição de probabilidade associada, cujas pro- 
priedades serão muito úteis no estudo dos futuros planos amostrais. Indicar-se-á 


estas variáveis por f;(A) e ó;(4). 


Exemplo 2.12 Considere o plano amostral A definido no Exemplo 2.6. Para cada 
amostra, tem-se associado as variáveis f1, f2, f3, 01, 02, 03, cujos valores e respectivas 


probabilidades são dados na Tabela 2.5. Ou resumindo, Não é difícil verificar que 


Tabela 2.5: Distribuições amostrais de A, fo, f3, 01, ô2, d3 na AASc 
s: dll 12 13 21 22 23 31 32 33 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 


fè 2 1 1 1 0 0 1 0 0 
f: 0 1 0 1 2 1 0 1 0 
f: 0 0 1 0 0 1 1 1 2 
e 1 1 1 1 0 0 1 0 0 
õ&: 0 1 0 1 1 1 0 1 0 
paes 0 0 1 0 0 1 1 1 1 
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Tabela 2.6: Distribuição de fı na AASc Tabela 2.7: Distribuição de ôı na AASc 
h(ds) = f: 0 1 2 h(ds)=d: O 1 
pn: 4/9 4/9 1/9 pn: 4/9 5/9 


as variáveis fz e fg tem a mesma distribuição que fı, enquanto que do e ó3 tem a 
mesma distribuição que 61, com EAalfi| = 2/3 = 0,67 e Eal] = 5/9 S 0,56, que 
representam, respectivamente, o número médio (esperado) de vezes que o elemento 
(1, 2 ou 3) pertence à amostra e o valor esperado de uma amostra conter o elemento 
(1,2 ou 3). 


Devido à sua importância, considere agora a 


Definição 2.9 Indica-se por m;(A) a probabilidade do i-ésimo elemento de U, per- 
tencer à amostra segundo o planejamento A, e m;;(A) a probabilidade do i-ésimo e 
j-ésimo elementos pertencerem simultâneamente à amostra. Deste modo, 

= ss P4(ôi(s) = 1) = 5 Pauls). 


(s;sESA) {s;sDi} 


De maneira similar, tem-se que 


Tij (A) = 5 Pauls). 


{s;sD{i,j}} 
Exemplo 2.13 Continuando o exemplo anterior, verifica-se que 
5 
1-9 Nas 
1 2 3=9 
e que 
2 
T12 = T13 = T23 = —. 
12 13 3=3 


Para melhor familiarização com a Definição 2.9, recomenda-se trabalhar o 


Exercício 2.3. 


2.5 Estimadores e suas propriedades 


O objetivo principal da amostragem é produzir estimadores para parâmetros popu- 
lacionais desconhecidos. Isto é feito escolhendo-se uma estatística que tenha propri- 


edades convenientes em relação ao parâmetro populacional. Quando associa-se uma 
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estatística com a expressão que irá “estimar” o parâmetro populacional ela recebe o 
nome de estimador. O valor numérico do estimador, para dada amostra, chama-se 
estimativa. 

Simbolicamente, o objetivo é estimar um parâmetro populacional 9(D). Isto 
será feito através de uma estatística obtida a partir dos dados amostrais ds, o es- 
timador que será representado por ô(ds). Quando não houver dúvidas, quanto às 
características que estão sendo estimadas, os símbolos acima serão abreviados para 
8 e Ô(s), respectivamente. 

Como já foi discutido, as propriedades de um estimador dependem da sua dis- 
tribuição amostral, e as principais qualidades procuradas em amostragem são: pe- 
quenos vieses (vícios) e pequenas variâncias. Além da variância já definida, também 


são usados os seguintes conceitos: 


Definição 2.10 Um estimador Ô(ds) é dito não viciado segundo um plano amostral 
A, se 


Caso ele seja viciado, tem-se 


Definição 2.11 O viés do estimador (ds), segundo o plano amostral A, é dado 
por 
Ba [ô| = Eu |ô- o| = Eu [ô] — 0; 
e o Erro Quadrático Médio por 
5 E 2 
EQMA |ô] = Eu [9-0] . 
Com essa definição é fácil verificar que 
EQMA [ô] = Vara |ô] + B3 [ô]. 


Observe que para uma amostra particular s, a diferença Ô(s) — 0, mostra 
o desvio entre o valor estimado e o valor que se desejaria conhecer, ou seja, o erro 
cometido pelo uso da amostra e do estimador Ô para estimar a quantidade de interesse 
(parâmetro) 0. Esse desvio é usualmente conhecido por erro amostral. Para uma 
dada amostra, o erro amostral só pode ser calculado, na situação improvável de 
0 ser conhecido. Por isso, a estratégia de avaliação em amostragem não é julgar 
o resultado particular de uma amostra, mas do plano amostral. Isto é, usando 
um plano amostral 4, quais as propriedades do estimador, segundo estas últimas 


medidas, avaliadas principalmente pelo viés e o EQM. 
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Exemplo 2.14 Usando os resultados do Exemplo 2.11 tem-se 
Esaselr] = 10,13 e Varaaseclr] S 0,6289. 


Suponha que o parâmetro de interesse seja a renda média por trabalhador, R, ou 


seja, 
R=- 12 +30 +18 60 
= 1+3+2 6 


Observa-se então que r é um estimador viesado para R, pois Eaasc|r] £ R. O vício 


= 10. 


é dado por 
Baaselr| S 10,13 — 10 = 0,13, 


de modo que 
EQMaaselr) & 0, 6289 + 0,132 = 0, 6458. 


Suponha agora que o parâmetro de interesse seja a renda média familiar up = 20. 


Observe que 
E Aasc [7] = 20 


Varasse [F = 28, 
implicando que f é não viciado para upr, ou seja, 
BAAsSc [7] =0, 
de modo que 
EQMAsse [7] = Varaasc [7] = 28. 
2.6 Expressões úteis 


Nesta seção serão apresentadas algumas expressões muito usadas na derivação das 
propriedades de estimadores que serão abordadas nos próximos capítulos. Considera- 


se então: 


e soma dos desvios quadráticos 


(2.2) T-S- Np; 
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e soma dos produtos dos desvios de duas variáveis 


N N 


(2.3) > Y- uy) (Xi — ux) = X XY; — Nuxpy; 
=i i=1 


e soma dos produtos de uma mesma variável 


N 
(2.4) Du =- Y? +N. 
i£j i=1 
A expressão (2.4) é obtida elevando-se ao quadrado ambos os membros da 
igualdade 524 Y; = Ny. Expressões equivalentes também valem para a amostra 
observada. 


O tamanho n(s) de uma amostra é dada por 


N 
(2.5) n(s) = o fils). 
i=1 


Assim, fixado um plano amostral A, o tamanho médio (ou esperado) e a 


variância do tamanho da amostra será 


N 
(2.6) Ealn] = $ Eulfi 
j=l 
é N 
(2.7) Varaln) => Varalf]+> Covalfi, fil, 
i=1 ij 


respectivamente. Ressalte-se que a soma 57;..; envolve um total de N(N — 1) par- 
celas. Existe uma classe bastante grande e importante de planos amostrais que são 
“simétricos”, ou seja, para os quais as esperanças, variâncias e covariâncias são as 


mesmas para todas as variáveis, isto é, 


Eulfi] = Ealf), Varalfi] = Varalf] e Covalfe, fi] = Covalf, f1, 


para i = 1,...,N, com f = fk e f = f, kN. Para estes planos 


amostrais, tem-se que 
(2.8) Vara[n] = NVaralf] + N(N — 1)Covalf, f’. 
Para aqueles planos, que além da propriedade acima, possuem tamanho fixo, 


tem-se também Var [n] = 0, implicando em: 


_ Vara[f] 


(2.9) Covalf, f1 = E 
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Dentre os planos amostrais com a propriedade (2.9) (ou seja, simétricos e fixos), 
destacam-se os planos AAS com e sem reposição. 
Para uma amostra s considere a estatística t correspondente a soma dos valores 


observados na amostra, isto é, 
(2.10) t(s) = XL Yp. 
k;es 


Correspondendo ao espaço amostral S4, tem-se associado a váriavel aleatória 
n 
t= 5 Yi, 
i=1 


onde as variáveis aleatórias y; estão dadas em (2.1). Usando a variável auxiliar 
fi, pode-se reescrever a expressão acima, como função de todas as observações da 
população, ou seja, 
N 
(2.11) t68) = Yi = Y F(Y: 
ics i=1 
Note que a variável aleatória t definida acima pode ser escrita em termos das variáveis 


aletórias f; como 


N 
t=5 fik. 
i=1 
Para um plano amostral A, tem-se as propriedades: 
N 
(2.12) Ealt] = MBA 
i=1 
e 
N 
(2.13) Varalt] = X YVaralfi] + XC Y:Y;Covalfi fil. 
i=1 ij 


Para a classe dos planos amostrais simétricos e de tamanho fixo considerados 


acima, tem-se que 


N 
(2.14) Ealt] = Eal] X Yi = Eulf]r 
i=1 
e, além disto, usando (2.9), 
N 
Varal = Varay - “SÊ Syy; 
i=1 ij 


= Varalf] (Er E 
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(2.4) x 2 1 2 2 2 2 
= Verdi E -ya (D + nte) | 
N A 5 
= Vna 2, 0% — 1) 
(2.15) = Varalf|NS?. 


Dado que Vara[t] = Eu [t2] — E2 [t], pode-se tirar uma relação adicional muito 
útil, ou seja, 
Eu [2] = Varali] + E3, 


que no caso simples (n fixo e simetria), usando (2.14) e (2.15), passa a ser 
(2.16) Ea [2] = VaralfINS? + Eâlfr. 


Outra estatística bastante útil é a soma de quadrados das observações da 
amostra, isto é, 
N 
(2.17) 28) = DY? = Y fi()Y2 
ics i=1 
Logo, 
N 
Fa [54] = $ Yê Balsi. 
i=1 


No caso particular em que n é fixo e o plano é simétrico, vem 


N 
Ea [3] = EAlfID Yè, 
i=1 
ou ainda, usando (2.2), tem-se que 
(2.18) Ea [53] = EAL] (No? + Ny?) = EAIN (02 +42). 


Para duas variáveis quaisquer f; e fj (ou ð; e d;), correspondentes a um plano 


amostral A qualquer, pode-se mostrar também que 


(2.19) Ealfi] = Es {Ealfil fl}, 
(2.20) Varalfi] = Es {Vara [filf)k + Vara {Ea [ilf 


iżj=1,...,N. 


58 


Definições e notações básicas 


Exercícios 


2.1 


2.2 


2.3 


2.4 


2.5 


2.6 


Usando um pacote computacional conveniente, simule uma população de ta- 
manho N = 100, onde a característica de interesse Y é gerada a partir da dis- 
tribuição normal com média 50 e variância 16, que denotamos por N (50,16). 
Encontre o total 7, a média populacional u e a variância populacional S2, da 


população que foi simulada. 


Considere a população dada na Tabela 2.8, onde X denota o número de apar- 
tamentos nos condomínios observados e Y denota o número de apartamentos 


alugados. Os espaços em branco devem ser interpretados como zero. Encontre: 


a. uy, Ty e SẸ; 

b. ux, Tx e S3; 

c. a proporção P de condomínios com mais de 20 apartamentos alugados e 
a variância populacional correspondente a variável W; que assume o valor 
1 se o i-ésimo condomínio possui mais que 20 apartamentos alugados e O 


caso contrário, i = 1,...,180. 
Para cada um dos planos amostrais B, C, D e E do Exemplo 2.6: 


a. Construa as distribuições das variáveis f; e 6;; 
b. Calcule Elô;] e Varlô;]; 


c. Encontre 7; e mij, para todo i e j. 


Para os planos amostrais B, C, D e E definidos no Exemplo 2.6, calcule 
EQMLr], Cov [r, 7| e Corr [r, Ab usando os dados do Exemplo 2.10. 


Considere o Exemplo 2.1. Seja Z, a média de fumantes na amostra observada. 


Encontre E [2] e Var |Z] para os planos amostrais A e B do Exemplo 2.6. 


Considere uma população com N = 6 elementos, isto é, U = (1,...,6), 
com o vetor de características populacionais D = (2,6,10,8,10,12). Desta 
população, uma amostra de n = 2 elementos é selecionada sem reposição. 
Considere o plano amostral A que associa a cada possível amostra de S4 a 


mesma probabilidade. 


a. Calcule Varalfi] e Covalfi, fil], i + j, para algum i e j que você escolher. 


Você acha que o plano amostral é simétrico? Por quê? 
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b. Seja t(s) o total da amostra s. Encontre a distribuição de t(s). Calcule 
Ealt] e Varalt). 


c. Usando (b), verifique se a média amostral y é um estimador não viciado 


de u. Calcule Var [y]. 


2.7 Para o plano amostral C definido no Exemplo 2.6: 


a. Encontre E[n] e Var[n], onde n indica o tamanho da amostra; 
b. Verifique se o plano amostral é simétrico; 
c. Usando os dados do Exemplo 2.10 encontre a distribuição da razão r. 
i. Verifique se r é um estimador não viciado de R = F/T, onde F e T 
são as médias populacionais das variáveis F; e T;. 
ii. Calcule EQM fr]. 


2.8 Para o plano amostral A do Exemplo 2.6, calcule Covlfi, f2] e verifique a 
validade de (2.9). 


Teóricos 


2.9 Verifique a validade das expressões (2.18) e (2.19). 


2.10 Para a amostragem aleatória simples sem reposição (A ASs), encontre a dis- 
tribuição de y1,..., Yn dadas em (2.1), para um população com N elementos. 
Verifique que 

Es N-1 
Ely;] = Y, Var[y:] = = 


1=1,...,n, e que 


tações básicas 


ições e no 
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Tabela 2.8: População de 180 domicílios 
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Capítulo 3 


Amostragem aleatória simples 


Amostragem aleatória simples (AAS) é o método mais simples e mais importante 
para a seleção de uma amostra. Além de servir como um plano próprio, o seu 
procedimento é usado de modo repetido em procedimentos de múltiplos estágios. 
Ele pode ser caracterizado através da definição operacional: “de uma lista com 
N unidades elementares, sorteiam-se com igual probabilidade n unidades”. Vários 
métodos para sortear as unidades que farão parte da amostra serão comentados 
nas seções seguintes. Para simplificar a notação e estando o plano bem definido, 


usar-se-á a notação E[-| no lugar de EA[:). 


3.1 Definições e notações 


A principal caracterização para o uso do plano AAS é a existência de um sistema de 
referências completo, descrevendo cada uma das unidades elementares. Deste modo 


tem-se bem listado o universo 
"é Ra NS A 
O plano é descrito do seguinte modo: 


i. Utilizando um procedimento aleatório (tabela de números aleatórios, urna, 


etc.), sorteia-se com igual probabilidade um elemento da população U; 


ii. Repete-se o processo anterior até que sejam sorteadas n unidades, tendo sido 


este número pré-fixado anteriormente; 


iii. Caso seja permitido o sorteio de uma unidade mais de uma vez, tem-se o pro- 


cesso AAS com reposição. Quando o elemento sorteado é removido de U antes 
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do sorteio do próximo, tem-se o plano AAS sem reposição. O primeiro pro- 
cedimento, também conhecido como AAS irrestrito, será indicado por AASc, 
enquanto que o segundo, conhecido como AAS restrito, será designado por 
AASs. 


Do ponto de vista prático, o plano AASs é muito mais interessante, pois vai 
de encontro ao princípio intuitivo de que “não se ganha mais informação se uma 
mesma unidade aparece mais de uma vez na amostra”. Por outro lado, o plano 
AASc, introduz vantagens matemáticas e estatísticas, como a independência entre 
as unidades sorteadas, que facilita em muito a determinação das propriedades dos 
estimadores das quantidades populacionais de interesse. Basta observar na maioria 
dos assuntos tratados em livros de inferência há imposição de que as unidades que 
fazem parte da amostra sejam independentes. Deste modo, iniciar-se-á este capítulo 
derivando-se as propriedades dos estimadores para o caso AASc, e depois para AASs. 
Também serão exploradas comparações entre os métodos, procurando ressaltar as 
respectivas vantagens e ganhos. Considere também associado a cada unidade à, uma 
característica populacional unidimensional de interesse, Y;, i E€ U. Neste capítulo 
serão consideradas inferências para os seguintes parâmetros de interesse (já definidos 


na Seção 2.1): 


N 1d 1 DM i 1 N 5 
r= nr= r o en e e A: 
i=1 Na N N-12 


3.2 Amostragem aleatória simples com reposição 


Inicialmente são apresentadas algumas propriedades gerais do plano AASc, como a 
sua implementação e também as probabilidades de inclusão de primeira e segunda 
ordem. Em seguida, apresenta-se estimadores para o total, a média e a variância 
populacionais, e são estudadas as suas propriedades, como vício e variância. 


A AASc opera da seguinte forma: 


i. A população está numerada de 1 a N, de acordo com o sistema de referências, 
ou seja, 
u = {1,..., N}; 


i. Utilizando uma tabela de números aleatórios, ou programa de computador, 


sorteia-se, com igual probabilidade, uma das N unidades da população; 


iii. Repõe-se essa unidade na população e sorteia-se um elemento seguinte; 
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iv. Repete-se o procedimento até que n unidades tenham sido sorteadas. 


Com o plano amostral AASc definido acima, é fácil verificar que a variável fi, 
número de vezes que a unidade i aparece na amostra (ver Definição 2.2), apresenta 


as propriedades estabelecidas no teorema seguinte. 


Teorema 3.1 Para o plano amostral AASc, a variável fi, número de vezes que a 
unidade à aparece na amostra segue uma distribuição binomial com parâmetros n e 
1/N, denotadas por 


fi~ b (n: x) , 
de modo que 
(3.1) Elfl= 5 
(3.2) Varlf]= Š (1 E x) , 
(3.3) n=1-( 5) + 


(3.4) m=1-2(1-5) +(1-5). 


ij=1,..., N, e€ 
Nº 
ijl... N. 


Prova. Os resultados (3.1) e (3.2) seguem diretamente do fato de que se a variável 
aleatória X ~ b(n; p) então (ver Bussab e Morettin, 2004) a função de proba- 
bilidade de X é tal que 


P(X =k) = (i)a -= pro, 


com E[X] = np e Var[X| = np(1 — p). Com relação às probabilidades de 


inclusão, tem-se que 


II 
D 
Nimat 


P(fi #0)=1- P(fi 


Ti 


II 
= 
(MN 
os 
aa 
ATEN 
z|= 
Li 
o 
Ts 
| 
| 
2| = 
wii 
3 
II 
= 
l 
HN 
= 
l 
=| 
à RD q 
3 


(3.5) = 
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e que 
Tij = P(fi# 0N f; #0)=1- P(fi=0U f; =0) 
= LEPE OTRO E OO) 
r e aa 
= 1 2(1 x) +l 7) 
Eis cs DRA NA = a 


N” 

verificando assim (3.3) e (3.4). Note que em (3.5) o numerador denota o 
número de amostras que contém a unidade į e o denominador denota o número 
total de amostras A ASc de n unidades em uma população com N unidades. De 
maneira similar, em (3.6) o numerador denota o número de amostras AASc 
de tamanho n que contém o par (i,j). Pelo plano AASc, cada tentativa é 
independente e qualquer um dos N elementos populacionais tem a mesma 
probabilidade 1/N de ser sorteado. Isso caracteriza para (fi, fo,..., fN) a 
distribuição multinomial (ver Ross, 2002), com parâmetros (n;1/N,...,1/N), 


que denotamos por 
(iss cos fN) ~ M(n;1/N,...,1/N), 


de onde segue que 


1 1 n 
(3.7) Colfisfil= -n55 =- 
para todo i £j = 1,..., N. Relembre que se (X1,..., XN) ~ M(n;pi,..., pN) 
então, 
E|X;i] = npi, Var|Xi] = npi(l — pi) 
e 


Cov|X;, X;] = —npip;, 
i = 1,..., N, j= 1,...,N e i Æ j. Note de (3.7) que a covariância de dois 
elementos quaisquer de (f1, ..., fn) é constante, ou seja, é a mesma qualquer 
que seja o par considerado. Isto é também decorrente do caráter simétrico do 
plano AASc, ou seja, que probabilidades associadas a eventos envolvendo os 
pares (fi, fj) não dependem dos indices i e j, i,j = 1,...,N, i Æ j. Uma 
forma alternativa de obter o resultado (3.7) é através da fórmula (2.9), pois, 
sendo Covlfi, f;] = constante, para i £ j vem que 
Varlfi] 1 n (1 z) n 

N-1 N-1N 


Covlfi, fi] = 
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3.2.1 Propriedades da estatística t(s) 


O resultado apresentado a seguir é bastante útil na obtenção das propriedades dos 


estimadores do total e da média populacional. 


Teorema 3.2 4 estatística t(s), total da amostra, definida por 


t(s) =) Y; 


iEs 


tem, para o plano AASc, as seguintes propriedades: 


E[t] = nu 


Varlt] = no?. 


Prova. Quando s percorre Saase, de (2.14) e do Teorema 3.1 vem que 


N 
Elt] = EAD Yi = 57=nu 


e combinando este resultado com (2.15), obtém-se 


Varl[t] = Var[f|NSº = x (=) NS =n 


N-1 
— S = no?, 


onde f denota o número de vezes que uma unidade qualquer de U aparece na 


amostra. 


3.2.2 Estimação do total e da média populacional 


Dos resultados acima, derivam-se estimadores não viesados para u e 7, resumidos 


no seguinte teorema. 


Teorema 3.3 4 média amostral 


(3.8) y= 


Sm 


Hs), 
2a 


é um estimador não viesado da média populacional u dentro do plano AA Sc, e ainda 


pe 
(3.9) Var [y] = a 
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Corolário 3.1 Dentro do plano AASc, a estatística 

(3.10) T(s)=7 = Ny = —t(s) 
n 

é um estimador não viesado do total populacional, com 
2 


Var[|T] = nº. 
n 


O estimador T(s) em (3.10) é usualmente conhecido por estimador expansão 
do total populacional. Note que o total populacional pode ser escrito como 7 = 
Dies Yi + Digs Yı enquanto que 7 = ny + (N — n)y, de modo que (N — n)7 estima 
a parte não observada, >Jjgs Yi, de 7. 


3.2.3 Estimação da variância populacional 


Nesta seção considera-se o problema da estimação das variâncias populacional e 


amostral. 


Teorema 3.4 Dentro do plano AASc, a estatística 


(3.11) 8? = Sm), 


é um estimador não viesado da variância populacional o2. 


Prova. Note que 


de modo que 


onde s? = Jes Y?. Por outro lado, de (2.16), (2.18), (3.1) e (3.2), podemos 


escrever que 
E [s?] = N (0? + p?) EIF) = N (02 + p?) 5 = no? + ny? 
e que 
E[?) = NSVarlf] + PEI 


n 1 n? N-11 
Ns (1 5) } T — nS? (=) mn” 


= no? + nêu’, 
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onde f denota o número de vezes que uma unidade qualquer de U aparece na 


amostra. Combinando os dois últimos resultados, obtém-se 
E [n — 1)s?]| = no? +ny' — o? — np? = (n — Do, 
o que demonstra o teorema. 


Combinando os resultados apresentados nos teoremas e corolário apresentados 
acima, pode-se produzir estimadores não viesados para a variância dos estimadores 


de u e 7, que estão condensados no corolário apresentado abaixo. 


Corolário 3.2 Para o plano amostral AASe, a estatística 


EN 2 


(3.12) var |y] = Var [y] = 7 


é um estimador não viesado da variância da média amostral, Var [y], e 


2 


(3.13) var|T] = Var[T] = m 


é um estimador não viesado de Var|T]. 


Exemplo 3.1 Volte aos dados do Exemplo 2.1 e considere a variável renda familiar, 
onde o universo é U = {1,2,3} e o parâmetro populacional é D = (12,30,18), com 
as seguintes funções paramétricas: T = 60, u = 20 e o? = 168/3 = 56. Definido o 


plano amostral AASc, com n = 2, tem-se associado a U o seguinte espaço amostral 


Saase = {11, 12, 13,21, 22, 23, 31, 32, 33}. 


A Tabela 3.1 considerada a seguir apresenta os valores dos estimadores 7 e s?, 


calculados para cada amostra em SAASc- 


Tabela 3.1: Valores de J, s2 e P(s) para as amostras s em SaAsc 
s: dll 12 13 21 22 23 31 32 33 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 
12 21 15 21 30 24 15 24 18 


As Tabelas 3.2 e 3.3 apresentam as distribuições amostrais de 7 e s2. 
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Tabela 3.2: Distribuição amostral de y na AASc 
y: 12 15 18 21 24 30 
PŒ): 1/9 2/9 1/9 2/9 2/9 1/9 


Tabela 3.3: Distribuição amostral de s? na AASc 
s3: 0 18 72 162 


P(s?): 3/9 2/9 2/9 2/9 


Tem-se portanto as seguintes propriedades: 
56 
Ely)= 20, e Vary] = s 28. 


Note também que 


njej- =o, 


como já era esperado, pois conforme visto no Teorema 3.4, s2 é um estimador não 


viesado de g°. 


3.2.4 Normalidade assintótica e intervalos de confiança 


Conforme o tamanho da amostra aumenta, as distribuições de y e de T vão se 
aproximando da distribuição normal, de acordo com o Teorema do Limite Central 
(TLC), tanto para o caso da AASc como para a AASs. No Capítulo 10 são discutidas 
condições para a validade do TLC para várias classes de estimadores (veja também o 


Exercício 3.10). Então, para n suficientemente grande, temos, com relação à AASc, 


que E 
-H a 

3.14 à N(0,1), 

(3.14) e“ N(O,1) 

E T 

(3.15) Z SANOI) 


onde N (0,1) denota uma variável aleatória com distribuição normal com média zero 
e variância 1. Os resultados (3.14) e (3.15) possibilitam a obtenção de intervalos de 
confiança aproximados para y e T. Então, com relação à média populacional, temos 


de (3.14) que, para n suficientemente grande, 


(3.16) p (BA < za) ~1—a, 
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onde Za é a ordenada da N(0,1) de tal forma que a área na densidade da N(0,1) no 
intervalo (— za; Za) é igual a 1 — a. Como o? é desconhecido, ele é substituído por 
seu estimador não viciado s2, que para n grande é bem próximo de 02. A expressão 


(3.16) pode ser escrita como 


s2 s2 
P |Y- calhou pe Za) 
n n 
de onde segue que 


s2 s2 
(3.17) V— za! —; J + za! — 
|n Vn 


é um intervalo de confiança para u com coeficiente de confiança aproximadamente 
iguala 1 — a. À interpretação frequentista do intervalo de confiança está baseada 
no fato de que se forem observadas 100 amostras AAS, e construídos 100 intervalos 
de confiança baseados nestas amostras, então, aproximadamente 100(1 — a)% dos 


intervalos devem conter p. 


3.2.5 Determinação do tamanho da amostra 


Nesta seção, discute-se a determinação do tamanho da amostra n de tal forma que o 
estimador obtido tenha um erro máximo de estimação igual a B, com determinado 
grau de confiança (probabilidade). De maneira mais específica, o problema consiste 


em determinarmos n de modo que 
(3.18) P(ly-u<B)=li-a. 


De acordo com (3.14), tem-se, para n grande, que 


j2 
(3.19) P | |J — u| < za E ~l-a. 


Então, para B fixado, comparando (3.18) e (3.19), a solução para o problema 


acima consiste em determinar n de tal forma que 


ou equivalentemente, 


(3.20) B qa 
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Resolvendo (3.20) em n, obtém-se 


o? o 


(3.21) a a 


N 


de modo que D = B?/22. 

Para a determinação do tamanho da amostra é preciso fixar o erro máximo 
desejado (B), com algum grau de confiança (za) e possuir algum conhecimento a 
priori da variabilidade da população (02). Os dois primeiros são fixados pelo pes- 
quisador, e quanto ao terceiro, a resposta exige mais trabalho. O uso de pesquisas 
passadas, “adivinhações” estatísticas, ou amostras pilotos são os critérios mais usa- 
dos. Em muitos casos, uma amostra piloto pode fornecer informação suficiente 
sobre a população, de tal forma que pode-se obter um estimador inicial razoável 
para o2. Em outros casos, pesquisas amostrais efetuadas anteriormente sobre a po- 
pulação também podem fornecer estimativas iniciais bastante satisfatórias para o°. 
Um outro procedimento, talvez menos dispendioso, seria considerar um intervalo 
onde aproximadamente 95% dos indivíduos da população estariam concentrados, e 
aí, igualar ao comprimento deste intervalo a quantidade 40. Teríamos então um 
valor aproximado para 02. Tal procedimento é baseado no fato de que no intervalo 


compreendido entre a média menos dois desvios padrões e a média mais dois des- 


vios padrões (média + 2DP), tem-se em populações (aproximadamente) simétricas, 


aproximadamente 95% da população. 


Exemplo 3.2 Considere novamente a população do Exemplo 2.1. Suponha que 
uma amostra AASc de tamanho n = 10 da variável renda familiar apresente os 
valores: 12, 18, 12, 18, 18, 30, 12, 12, 18 e 30. Para esta amostra, J = 18 e s? = 48. 
Portanto, de (3.17) segue que um intervalo de 95% de confiança para u é dado por 
18 + 1,96,/48/10, ou seja, (13,71;22,29). Com s? = 48, para ter uma amostra que 
apresenta uma estimativa com erro máximo B = v2 com y = 0,95, de modo que 


D=2/(22) = 0,5, é necessário que 


Pode-se também considerar o tamanho da amostra que com probabilidade 


apresenta um erro máximo relativo r para a média populacional, ou seja, 


p (= sre 
u 
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Identificando a questão acima com aquela indicada pela expressão (3.18), tem-se que 
a solução para n é apresentada por (3.21) com B = ru. Assim, além de estimativa 


2 


preliminar para o” necessita-se também de uma estimativa preliminar para p. 


3.2.6 Estimação de proporções 


De maneira geral, em muitas situações, existe interesse em estudar a proporção de 
elementos em certa população que possuem determinada característica, como ser ou 
não um item defeituoso, ser ou não eleitor de determinado partido político e assim 


por diante. Nestas situações, a cada elemento da população está associada a variável 


y l 1, se o elemento i possui a característica 
i = 


0, caso contrário 


Então, 
1 N 
Di e Naa 
N>” H 


é a proporção de unidades na população que possuem a característica de interesse. 

No caso em que se está estudando, a proporção de itens defeituosos produzidos 
em uma linha de produção, por exemplo, a população dos valores de Y não é de 
interesse primordial. É mais importante a obtenção de informação sobre a proporção 
P de tais itens que estão dentro de limites aceitáveis. 

Desde que Y; toma apenas os valores 0 e 1, pode-se escrever (veja o Exercício 
3.31) 

1 

(3.22) q = x Y Yi- PY? = P1- P). 


i=1 
Dada uma amostra observada s de tamanho n, seja m o número de elementos 
da amostra que possuem a determinada característica. De acordo com o Teorema 


3.3, tem-se com relação à AASc que um estimador não viciado de P é dado por 


à 1 m 
Noreg m 
e que 
x 2 P 
Var |f] =% = 22, 
n n 


onde Q = 1 — P. De acordo com o Teorema 3.4, tem-se que um estimador não 
viciado de g? é dado por 


n n 


-2 RE PQ = 
(3.23) A é bb 
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onde q = Ô =1-P. Consequentemente, pelo Corolário 3.2, tem-se que um estimador 
não viciado de Var[P] é dado por 
Eq 
var|p] = ——. 
n—l 


A seguir, há um resumo dos resultados obtidos acima. 


Teorema 3.5 Um estimador não viciado de P baseado na AASc é dado por 


A m 

p=P=7=-, 

n 

com PQ 
3.24 Var |P| = >*. 
(3.24) ar |Ê] = 


Além disso, um estimador não viciado de Var [Ê] é 


var|p] = ER 


n—l 
Utilizando-se a aproximação normal discutida na Seção 3.2.4, um intervalo de 


confiança aproximado para P é dado por 


A PRO a PQ 
(3.25) (? Zä ar tae 2e). 


Notando-se que o produto PQ (e portanto PÔ) é sempre menor que 1/4, segue 


de (3.25) que um intervalo de confiança conservativo para P é dado por 


A 1 x 1 
(P T tlm): 


Como no caso da média amostral, pode-se considerar o tamanho da amostra 


n de tal forma que 
(3.26) P(|P-P|<B)=l-a. 


Utilizando os resultados obtidos para a média amostral da Seção 3.2.4, pode-se 
mostrar que o valor de n, tal que (3.26) é aproximadamente satisfeita, é dado por 


Sg 


(3.27) WE 


onde D é definido como em (3.21). Mas, para utilizar a fórmula (3.27), é necessário 


um valor (estimador) para P. Tal estimador pode ser obtido utilizando-se pesquisas 
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anteriores ou uma amostra piloto. Uma forma alternativa, que produz um valor 
conservativo para n consiste em utilizar o fato de que PQ < 1/4. Neste caso, tem-se 
de (3.27) que 


== 


4D 


onde, como antes, D = B? /22. 


Exemplo 3.3 Considere novamente a amostra AASc obtida no Exemplo 3.2. Pretende- 
se estimar a proporção P de pessoas na população com renda familiar maior que 18 
unidades. Portanto, da amostra selecionada obtem-se p = 2/10 = 0,2. Um intervalo 
de 95% de confiança para P baseado na amostra acima segue de (3.25) e é dado por 
0,2+1,96,/0,2 x 0,8/9, ou seja, (0,00;0, 46), que é portanto bastante grande, dado 


que o tamanho da amostra é bastante pequeno. 


3.2.7 Otimalidade de J na AASc 


Nesta seção discute-se a otimalidade de y em relação à AASc, sem reposição na 
classe dos estimadores lineares de u. Considera-se novamente as variáveis aletórias 
Yi; ---, Yn dadas em (2.1), ou seja, a variável y; assume os valores Y1,..., Yy, com 
probabilidade 1/N, ou seja, P(y = Y;) = 1/N, j = 1,..., N. Note que com relação 


à AASc, as variáveis y são independentes. 
Definição 3.1 Um estimador linear de u é uma função de ds dada por 
n 
Use = X liyi, 
i=1 
onde as £; são constantes conhecidas. 


Note que 7 é linear com 4; = 1/n, i = 1,...,n. O lema a seguir estabelece as 


condições para que Ysp seja não viciado (veja o Exercício 3.36). 


Lema 3.1 Um estimador Jų é não viciado para u se, e somente se, 


Teorema 3.6 Com relação à AASc, na classe dos estimadores lineares não vicia- 


dos, J é o de menor variância (ótimo). 
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Prova. Como as variáveis y; são independentes, temos que 


Var We] = 54 
i=1 


(3.28) = 2 [E (n-D) +. 


onde a última igualdade segue devido a que £ = 1/n, de acordo com o Lema 
3.1. Portanto, (3.28) é mínima quando £; = 1/n, i = 1,...,n, o que prova o 


resultado. 


3.3 Amostragem aleatória simples sem reposição 


A amostragem aleatória simples sem reposição (AASs) opera de modo idêntico à 
AASc, alterando-se apenas (iii), que passa a ser: 
iii. Sorteia-se um elemento seguinte, com o elemento anterior sendo retirado da 
população. 
Portanto, cada elemento da população só pode aparecer uma vez na amostra. 
Com esta definição tem-se: 
Teorema 3.7 Com relação à AASs, a variável fi, número de vezes que a unidade 
i aparece na amostra, obedece a distribuição de Bernoulli (ver Bussab e Morettin, 
2004) com probabilidade de sucesso n/N, denotado por fi ~ b(1; n/N), e que satisfaz: 


n n 
Ph=D)=7 e Akes] = 
de modo que 
n 
n n 
Varltl= 5 (1-5). 
n 
m= N’ 
nn—l 
NNT 
e 
n N-n 


Colhi h] =-= ENT 
i=1,...,nei£j=1,...,N. 
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Prova. A demonstração deste teorema é similar àquela feita para a AASc, e fica a 


cargo do leitor (veja o Exercício 3.30). 


Convém ressaltar ainda a similaridade entre muitos dos resultados que os dois 
planos apresentam, e que embora as fórmulas sejam diferentes, são próximas quando 
N, o tamanho da população, tende a ser grande quando comparada com o tamanho 


da amostra. Por exemplo, quando N é grande com relação a n, 


N-n 


Ed aca Ea 
de modo que 
Covaaselfi, fil = = 
e 
Covaassl fi, fil = a 
i = 1,...,n, i Æ j =1,...,n, são muito próximos. Observe que para n = 1, as 


fórmulas coincidem (Por que?). 


3.3.1 Propriedades da estatística t(s) 


Apresenta-se a seguir algumas propriedades da estatística t(s) = >;es Y;, o total da 
amostra, que serão utilizadas na seção seguinte, quando são apresentados estimado- 


res do total e da média populacionais e suas propriedades. 
Teorema 3.8 Com relação à AASs, a estatística t(s) tem as seguintes propriedades: 


E[t] = nu 


Varft] = n(1— PS, 


onde f = n/N é denominada fração amostral. 


Prova. Quando s percorre Saass; tem-se por (2.14) que 


N 
n 
EIN = EI Y = Er= mu 
i=1 
e por (2.15), que 


Varlt) = Varlf|NS? 
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3.3.2 Estimação do total e da média populacional 


Como estimadores da média e do total populacionais, considera-se /i = J jes Yi/n, 
a média amostral, e 7? = T(s) = Ny , respectivamente. O estimador T(s) é usu- 
almente conhecido como estimador expansão, pois pode ser escrito como T(s) = 
ny + (N — n)y, de modo que as N — n unidades fora da amostra são também es- 
timadas por y. Os resultados a seguir mostram que os estimadores acima são não 
viesados e apresentam também expressões para as suas variâncias com relação à 


AASs, denominadas variâncias amostrais. 


Corolário 3.3 Com relação à AASs, um estimador não viciado do total populaci- 
onal é E 
T(s) = Ny = t(s), 
n 


cuja variância amostral é dada por 


Var[T] = N2(1 — p 


Corolário 3.4 Com relação à AASs, a média amostral 


é um estimador não viesado da média populacional, com variância amostral dada 
por 
S2 
Var] = 0 - f)—. 


n 
3.3.3 Estimação da variância populacional 


Apresenta-se a seguir um estimador não viesado para a variância populacional 9°, 
com relação ao planejamento AASs. Tal estimador será usado na obtenção de esti- 
madores não viesados para as variâncias amostrais apresentadas nos Corolários 3.3 
e 3.4. 


Teorema 3.9 A variância da amostra 


1 
o d 
n-li 


é um estimador não viesado da variância populacional S? para o planejamento 
AASS. 
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Prova. Fica a cargo do leitor seguir os passos usados na demonstração do Teorema 


3.4 para concluir a demostração (veja o Exercício 3.33). 


Corolário 3.5 Para o plano amostral AASs, a estatística 


eon 2 


varig] = Var = (1- H$ 


é um estimador não viesado de Var[y] e 


——— 2 


var[T] = Var[T] = Nº — f)Ž 
é um estimador não viesado de Var|T]. 


Exemplo 3.4 Considere novamente os dados do Exemplo 2.1 e o interesse pela 
variável renda familiar, onde, como no Exemplo 3.1, U = {1,2,3} e o parâmetro 
populacional é D = (12,30,18), com as funções paramétricas rT = 60, u = 20 e 
S? = 84. Definido o plano amostral AASs, com n = 2, tem-se associado a U o 
espaço amostral 

Saass = {12, 21,31, 13, 23, 32} 


A Tabela 3.4 considerada a seguir apresenta os valores de 7 e s? para cada uma das 


amostras em SAaAsSs- 


Tabela 3.4: Valores de J, s? e P(s) para as amostras s em SAAsSs 
s: 12 21 13 31 23 32 
P(s): 1/6 1/6 1/6 1/6 1/6 1/6 
y 21 21 15 15 24 24 
sê 162 162 18 18 72 72 


As Tabelas 3.5 e 3.6 apresentam as distribuições amostrais de 7 e s2. 


Tabela 3.5: Distribuição amostral de y na AASs 
7. 15 2 4 
P(g): 1/3 1/3 1/3 


Temos da Tabela 3.5 que 


Ely)=20 e Vary] = (1 — 5) o 14. 
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Tabela 3.6: Distribuição amostral de s? na AASs 
s: 18 72 162 


Else. 1/3 1/3 1/3 


Portanto, y é um estimador não viesado para u e com variância bem menor que a 


variância apresentada pelo planejamento AASc. Da Tabela 3.6, tem-se que 
1 
E[s? = 3 (18 +72 + 162) = 84, 


um resultado já esperado, pois, conforme visto no Teorema 3.9, s? é um estimador 


não viesado de S°. 


3.3.4 Normalidade assintótica e intervalos de confiança 


Todos os resultados apresentados para o caso com reposição tem o seu equivalente 
para a AASs, mudando apenas a expressão correspondente à variância amostral. 


Assim, para a AASs temos os seguintes resultados: 


Y-H 


VESA NO 
T-7T P 
NJO- pan o Ra 


[7 — 4| o 
(ua =)=- 


resultando no intervalo de confiança para u, 


o E s2 
T- zj -PAT OD É 


Um intervalo de confiança para 7 com coeficiente de confiança aproximada- 
mente igual a 1 — a pode ser construído de maneira análoga ao intervalo construído 


acima para u. Veja o Exercício 3.34. 


Exemplo 3.5 Uma pesquisa amostral foi conduzida com o objetivo de se estudar 
o índice de ausência ao trabalho em um determinado tipo de indústria. Uma AAS 
sem reposição de mil operários de um total de 36 mil é observada com relação ao 
número de faltas não justificadas em um período de 6 meses. Os resultados obtidos 


foram: 
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Faltas: 0 1 2 3 4 5 6 7 8 
Trabalhadores: 451 162 187 112 49 21 5 11 2 


Para esta amostra tem-se que uma estimativa de u é dada por y = 1,296. Observa-se 
também que s? = 2,397. Usando a aproximação normal, tem-se que um intervalo 
de 95% de confiança para u é dado por (1,201; 1,391). 


3.3.5 Determinação do tamanho da amostra 


Para adaptar os resultados desenvolvidos na Seção 3.2.5 para o caso AASs, basta 


observar que 


Na S? S? 
Var y| = (1 = = —, 
AASs[9] ( f) = n/(1 = f) n! 
onde 
7 n 
n = —— 
l1- f’ 
obtendo-se uma expressão semelhante à do caso AASc, ou seja, 
TE 
D 
Para a obtenção do tamanho efetivo da amostra note que, sendo 
: n 
n=>—— 
1-n/N' 
obtém-se imediatamente que 
1 
n 
dg e n/N’ 
de modo que 
E a 1 
ie DA DFN. 


No 
onde D = B2/z2. Note que o tamanho da amostra neste caso, é menor que o 
tamanho da população N. No caso da AASc, o tamanho da amostra para atingir 
determinada precisão (expressa através de B) pode ser maior que o tamanho da 
população. Todas as correções feitas anteriormente para o caso AASc também se 
aplicam para este caso. Pode-se mostrar de maneira similar ao desenvolvimento 


acima que o tamanho da amostra para que (veja o Exercício 3.35) 
P(|T-T|i<B)=l-a, 
é dado por 


3.29 = E 
Reu "2 DANS AT 
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Exemplo 3.6 Considere a população dos operários faltosos do Exemplo 3.5. Pode- 
se encontrar n tal que B = 0,05, com a = 0,05. Então, como, neste caso D = 
(0,05/2)2 = 0,00065, tem-se que 


1 


n 0,00065 I = 3.466. 


2,397 36.000 


Pode-se também considerar o caso em que o interesse é pelo erro máximo 
relativo como no caso da AASc considerado na Seção 3.2.5. Veja também o Exercício 
3.42. 


3.3.6 Estimação de proporções 


Discute-se nesta seção a estimação de uma proporção P no caso de uma AASs de 
tamanho n de uma população de N “uns” (sucessos) e “zeros” (fracassos). Desde 


que Y; toma apenas os valores 1 e 0, podemos escrever (veja o Exercício 3.31) 


La N 
Pa Es 2 — = 
(3.30) se = NI Ai P) = RA P). 


Dada uma amostra observada s de tamanho n, seja m o número de elementos 
da amostra que possuem a determinada característica. De acordo com o Corolário 


3.4, tem-se com relação à AASs que um estimador não viciado de P é dado por 


e que 


Var[Ê] = (1 - f)— = 
n 
onde Q = 1 — P. De acordo com o Teorema 3.9, tem-se que um estimador não 
viciado de S2 é dado por 


n n 


PÔ = 
n—1 Q PaA 


(3.31) gre 


onde q = Ô = 1 — Ê. Consegientemente, um estimador não viciado de Var[?] é 


dado por 


= (1— À 
varl] = (1 N 
Utilizando-se a aproximação normal discutida na Seção 3.3.4, um intervalo de 


confiança aproximado para P é dado por 


(3.32) (P-a - nie | ma-n% ' 


3.3 Amostragem aleatória simples sem reposição 81 


Notando-se que o produto PQ (e portanto PÓ) é sempre menor que 1/4, segue 


de (3.32) que um intervalo de confiança conservativo para P é dado por 


so, [1=F p, [1f 
( N a S w5) 


Como no caso da média amostral, pode-se considerar o tamanho da amostra 


n de tal forma que 
(3.33) P((Ê — P| < B) ~ 1-a. 


Utilizando-se os resultados obtidos para a média amostral na Seção 3.3.5, 
pode-se mostrar que o valor de n tal que (3.33) é aproximadamente satisfeita é dado 
por 


(3.34) n= o 


(N-DDMPQ) + 1 


Mas, para utilizar a fórmula (3.34), é necessário de um valor (estimador) para P. 


Tal estimador pode ser obtido utilizando-se pesquisas anteriores ou uma amostra 
piloto. Uma forma alternativa, que produz um valor conservativo para n consiste 


em utilizar o fato de que PQ < 1/4. Neste caso, tem-se de (3.34) que 


N 
4(N-DD+1º 


n= 
onde, como antes, D = B2/z2. 


Exemplo 3.7 No Exemplo 3.5, suponha que até 3 faltas (3 dias) em 6 meses seja 
considerado aceitável. Então, a proporção de trabalhadores tirando mais que 3 dias 


de folga não justificada em 6 meses, é 


= guga: 
1000 


De (3.34), tem-se que um intervalo de confiança para P, com a = 0,05, é dado por 


L. 12 
0,088 +1,96 (1 000 ) 0,088 x 0,9 


36.000 1.000-11 ’ 


ou seja, (0,071; 0,105). Para ter uma estimativa com B = 0,01 com y = 0,95, temos 
que D = (0,01/2)2 = 0, 000025, de modo que de (3.34) segue que é preciso observar 


36.000 


— (86.000-1)x0,000035 , 
0,088x 0,912 


= 2.948. 


82 Amostragem aleatória simples 


3.3.7 | Otimalidade de y na AASs 


Como na Seção 3.2.7, considere a classe dos estimadores lineares Ysg da média po- 
pulacional u, com a condição de não viciosidade estabelecida pelo Lema 3.1, ou 
seja l = 1/n. Note que neste caso as variáveis y; não são independentes, pois, 
Ply=Yoy=M=1I/N(N-D,itj=L..oNekAI=1,...,N. 


Teorema 3.10 Com relação à AASs, na classe dos estimadores lineares não vicia- 


dos, y é o de menor variância (ótimo). 


Prova. Suponha, sem perda de generalidade, que s = (1,...,n). Não é difícil 


mostrar que (veja o Exercício 3.37) 


(3.35) Var[ūs] = o D =a So G= (5 l- z) 


i=1 91 


Então, para que a variância (3.35) seja mínima, é necessário que 


n—l n—1 2 
2 
24 +t|l-)4 
i=1 i=1 
seja mínimo. Diferenciando com relação a 4; e igualando a zero, temos que 


n—l 
b=I=-V et dan 
j=1 
Note que a segunda derivada com relação a 4; é positiva. Assim, 4; = La, 


i=1,...,n, e como 52,4; = 1, tem-se que 


Note que o estimador linear com 4; = 1/n, i = 1,...,n nada mais é do que J. 


De maneira análoga, pode-se concluir que T é o estimador ótimo de 7 na classe 


dos estimadores lineares da Definição 3.1 (veja o Exercício 3.38). 


3.4 Comparação entre AASc e AASs 


2 


Quando se tem dois planos amostrais, é importante saber qual deles é “melhor”. 
Antes de continuar a discussão, é preciso fixar o critério pelo qual o plano será jul- 


gado. Como já foi discutido anteriormente, o critério mais adotado em amostragem 
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é o Erro Quadrático Médio, ou a variância quando os estimadores são não viesados. 
Devido a isso, existe um conceito bastante importante, que é o chamado efeito do 
planejamento (EPA, ou em inglês design effect, deff), que compara a variância de 
um plano qualquer com relação a um plano que é considerado padrão. A estatística 


y é em ambos os planos um estimador não viesado de u. Assim, 


Ei Ea 2 no 
EPA- Varaass [0] 2 (1— NsS/n — N n 
Varaascly] o2/n N-1 


Quando o EPA > 1, tem-se que o plano do numerador é menos eficiente que 
o padrão. Quando EPA < 1, a situação é inversa. Da expressão acima vê-se que 
ta 
N-17” 


ou seja, o plano AASs é sempre “melhor” do que o plano AASc. Só para amostras de 


tamanho 1 é que os dois se equivalem. Note que este resultado confirma a intuição 
popular de que amostras sem reposição são “melhores” do que aquelas com elementos 


repetidos. 


Exercícios 


3.1 Em uma população com N = 6, tem-se D = (8,2,2,11,4,7). Um plano AASs 
de tamanho n = 2 é adotado. 
a. Encontre a distribuição de 7 e mostre que Ely] = u. 
b. Mostre que Var[7| é como dada pelo Corolário 3.4. 
c. Encontre a distribuição de s2, definido em (3.11). Mostre que E [52] = S2. 


3.2 Considere o Exercício 3.1 agora com o plano AASc. 


a. Encontre a distribuição de 7 e mostre que Ely] = u. 
b. Encontre Var[y) diretamente e utilizando o resultado (3.9). 


c. Suponha que uma AAS com reposição de tamanho n = 10 retirada da 
população apresenta 7 = 5,435 e s? = 3,6. Encontre um intervalo de 


confiança para u com a = 0,02. 


3.3 No caso da AAS com reposição, determine o tamanho aproximado da amostra 
n tal que 
P(IT-T|i<B)=l-a, 


onde B está fixado. Como fica n, quando B = 0,03, œa = 0,01 e s? = 3,6? 
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3.4 Um plano AASs com n = 30 foi adotado em uma área da cidade contendo 
14.848 residências. O número de pessoas por residência na amostra observada 
foi d = (SOIS ISA MS ADI AA SSASSILDASADA). 


a. Encontre uma estimativa do número médio de pessoas por residência na 
população e uma estimativa para a variância da estimativa obtida. 
b. Encontre um intervalo de 90% de confiança para qu. 


c. Suponha que seja de interesse uma estimativa duas vezes mais precisa que 
a obtida com a amostra acima. Qual o tamanho da amostra necessário 


para tal precisão? 


3.5 Considere uma população com N = 6, onde D = (1,4,5,5,6,6). Adote um 


plano AASs com n = 2. Como estimador de u, considere 


Q| €| 


+1, ses contém yı e não ye 
ERG 


se s contém ye e não yı , 


J, caso contrário 


onde 7 é a média amostral. 


a. Encontre as distribuições de y e de Ye. Verifique se estes estimadores são 


não viciados para qu. 


b. Encontre Var[y| e Varly.). Qual o melhor estimador? 


3.6 Considere a população do Exercício 3.5, com o estimador 
_ Yy+HUYso tye 
Yst = ~ h3 y) 
onde J, é a média de uma amostra de tamanho n = 2 retirada dos remanes- 


centes elementos {2,3,4,5}, isto é, Js inclui y1, ye, e a média de uma amostra 


de tamanho 2 dos 4 elementos remanescentes. Encontre Var[y,,]. 


3.7 Dois dentistas, Dı e Do, fazem uma pesquisa amostral sobre o estado dos 
dentes de 200 crianças de certa escola estadual de determinada localidade. Dı 
seleciona uma AASs de 20 crianças e conta o número de dentes cariados para 


cada criança, com os seguintes resultados: 


Nº de dentes cariados: 0 1 2 3 4 5 6 7 8 9 10 
N° de crianças: 8 4 2 2 1 1 0 0 O 1 1 
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3.8 


3.9 


O outro dentista, Ds, usando a mesma técnica dental, examina as 200 crianças 
da escola, mas anota somente o número de crianças com dentes cariados. Ele 
encontra um total de 60 crianças sem nenhuma cárie. Estime o número de 


dentes cariados nas crianças da escola, quando se utiliza 


i. somente os resultados de D1; 


ii. os resultados de Dı e de Ds. 


a. Qual das estimativas é mais precisa? 


b. E possível encontrar uma estimativa para a variância de suas estimativas? 


Uma amostra AASs de tamanho n = 4 = nı +n é retirada de uma população 
U com N = 6 elementos, onde D = (8,2,2,11,4,7). Uma amostral aleatória 
simples sem reposição de tamanho nı = 2 é retirada da primeira amostra, 
apresentando média y,. Seja Jọ a média das nə unidades remanescentes na 
amostra original. Encontre Var[y, — yo] e Var[y, — y], onde y é a média da 


amostra original. 


Na Tabela 2.8, temos informações sobre o número de apartamentos (X) nos 
condomínios observados e o número de apartamentos alugados por condomínio 


(Y) em vários conjuntos habitacionais. 


a. Selecione duas amostras, de tamanhos 10 e 20, adotando AASc e construa 


intervalos de confiança para u com coeficiente de confiança y = 0,95. 


b. Considere a amostra de tamanho 20 de (a). Qual o tamanho necessário 
da amostra para que tenhamos uma estimativa duas vezes mais precisa 
que a de (a)? 

c. Use a amostra de tamanho 20 de (a) para obter uma estimativa pontual 
e por intervalo, com y = 0,95, para a proporção de residências com mais 
que 3 residentes. Qual o tamanho da amostra necessário para a obtenção 


de uma estimativa duas vezes mais precisa? 


d. Refaça (a), (b) e (c) considerando agora AASs. 


3.10 Considere a população definida no Exercício 2.1. Selecione 500 amostras de 


tamanho n = 10 sem reposição e, para cada uma delas, calcule y. Represente 
graficamente a distribuição destes valores de y através de um histograma. 
Selecione novamente 500 amostras, agora de tamanho n = 20, sem reposição 


e refaça o histograma. O que você conclui a partir dos histogramas? 
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3.11 Considere uma população com N = 6, onde D = (0,0,1,1,1,1). Deseja-se 
estimar P, a proporção de uns na população, utilizando uma amostra AASs 


de n = 4 unidades. 


a. Encontre a distribuição da média amostral y e mostre que 7 é um esti- 


mador não viciado de P. 


b. Sugira um estimador para Var[y]. Verifique se seu estimador é não vici- 


ado. 


3.12 Em uma amostra de 200 colégios particulares de uma população com 2.000 
colégios, 120 colégios eram favoráveis a certa proposição, 57 eram contra e 23 
eram indiferentes. Encontre o tamanho da amostra que fornece uma estimativa 
que não difere do valor exato do total de colégios na população favoráveis à 
proposição, por mais que 20, com probabilidade igual a 0,95. Justifique o 


procedimento utilizado. 


3.13 Considere novamente o Exercício 3.4. 


a. Encontre a probabilidade (aproximada) de que a estimativa do número 
total de pessoas não difira (em valor absoluto) do verdadeiro valor por 


mais que 100 pessoas. 


b. Encontre a probabilidade (aproximada) de que a estimativa da porcenta- 
gem de domicílios com mais que dois residentes não difira do verdadeiro 


valor (em valor absoluto) por mais que 1%. 
3.14 Refaça os Exercícios 3.4 e 3.13 considerando agora AASc. 


3.15 Duas AAS de tamanhos 200 e 450 foram colhidas um após a outra (sem 
reposição), de uma população de 2.400 alunos de uma escola. Para cada estu- 
dante perguntou-se qual a distância em quilômetros de sua residência à escola. 
As médias e variâncias obtidas foram as seguintes: Jų = 5,14, yo = 4,90, 
sı = 3,87 e s2 = 4,02. Construa um intervalo de confiança de 90% (aproxi- 


madamente) para a distância média das residências à escola. 


3.16 A seção de Estatística de uma biblioteca é formada por 130 prateleiras de 
tamanhos similares. Sorteando-se uma amostra aleatória de 15 prateleiras, 
obteve-se o seguinte número de livros em cada uma: 28, 25, 23, 33, 31, 18, 22, 
29, 30, 22, 26, 20, 21, 28, 25. 
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a. Construa um intervalo de confiança para T, o total de livros de Es- 


tatística. 


b. Que tamanho deveria ter a amostra para que, com 95% de confiança, o 


erro em estimar T seja inferior à 100 livros? 


3.17 Suspeita-se que a renda familiar média dos moradores de Pepira seja de apro- 
ximadamente 10 salários mínimos (SM) e o desvio padrão de 5 SM. Pretende-se 


usar AAS como plano amostral. 


a. Que tamanho deve ter a amostra para que o erro padrão de 7 seja de 0,5? 


Que suposições foram necessárias? 
b. Como ficaria a resposta acima se N = 20.000? E se N = 1.000? 


c. Agora você quer planejar a amostra de modo que o coeficiente de variação 


de y, CV [y], seja inferior a 5%. Qual deve ser o tamanho da amostra? 


3.18 Um levantamento amostral sobre a situação de saúde de uma população 
bastante grande visa estimar a incidência inicial de duas doenças. Suspeita-se 
que a incidência de uma delas é de 50% e a outra, mais rara, da ordem de 1%. 
Qual deve ser o tamanho da amostra em cada caso para manter o mesmo erro 
padrão de 0,5%? Agora, deseja-se garantir o mesmo coeficiente de variação de 
estimador e igual a 5%. Qual deve ser o tamanho da amostra em cada caso? 


Que lição você aprende deste exercício? 


3.19 Uma AAS de 400 pessoas, retirada de uma população com 2.000 pessoas, 


mostrou que 200 delas eram favoráveis a um projeto governamental. 


a. Dê um intervalo de confiança 95% para a proporção P de favoráveis ao 


projeto na população. Que suposições foram feitas para construí-lo? 


b. Que tamanho deveria ter a amostra para que tivéssemos 95% de confiança 


em estimar P, com erro inferior a 3%? 


3.20 Você planejou uma amostra aleatória simples de n indivíduos, para estimar a 
média populacional u de uma variável. Cerca de 20% recusou-se a responder à 
entrevista. Que estimador você usaria para | e qual o erro padrão? Justifique 


a resposta. 


3.21 Um pesquisador deseja estimar a porcentagem de pessoas com sangue do 


tipo O, entre os 3.200 moradores de uma certa ilha. Ele quer garantir que 
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o coeficiente de variação da estimativa não seja superior a 10%, com 95% de 
confiança. Ele também sabe que a proporção deve ser um número entre 20% 
e 30%. Que tamanho da amostra deve ser usado para um plano amostral 


aleatório simples 


a. com reposição? 


b. sem reposição? 


3.22 A seção de pessoal de uma companhia mantém fichas cadastrais de seus 800 


empregados. Sabe-se que algumas fichas estão incorretamente preenchidas e 
deseja-se estimar qual a proporção destas fichas. De 100 fichas escolhidas 


aleatoriamente, 25 estavam incorretas. 
a. Estime o total de fichas incorretas no arquivo e estabeleça um intervalo 
de confiança para este número. 


b. Que tamanho deveria ter a amostra para que o erro de estimação fosse 
de 0,04? 


3.23 Um programa de saúde irá vacinar todos os escolares, da 1 a 4? séries do 


ensino fundamental, pertencentes à rede oficial de um distrito educacional. 
Estima-se em cerca de 15.000 alunos, distribuídos em nove escolas com aproxi- 
madamente o mesmo número de alunos em cada uma delas. O número médio 
de alunos por classe é 35. As escolas estão situadas geograficamente próximas 
(dentro de um círculo de 3 km de raio, aproximadamente). Pretende-se usar 
o plano de vacinação para colher uma amostra para responder dois objetivos 


principais: 


i. Estimar a proporção de crianças infectadas com doença de Chagas, a qual 


supõe-se não ser superior à 2%; 


ii. Estimar a proporção de crianças nascidas fora da região, esperando-se 


que seja alta, da ordem de 40%. 


Você foi encarregado de propor um plano amostral aleatório simples para 
essa pesquisa, indicando e justificando o tamanho da amostra, fórmulas de 
estimação e sugestões práticas para colher a amostra. Informe as suposições 


feitas para responder ao problema. 
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3.24 Para estimar a proporção P das 1.000 unidades rurais do município de Pepira 
dedicadas exclusivamente à pecuária, usou-se uma AAS de 100 unidades, das 
quais apenas 30 satisfaziam o requisito. Construa um intervalo de confiança 
de 95% para P. 


3.25 Estuda-se o uso de amostragem para determinar o valor total de itens em 
estoque de uma empresa. O levantamento das 36 prateleiras de um dos ar- 
mazéns apresentou os seguintes valores (em R$): 29, 38, 42, 44, 45, 47,51, 53, 
53, 54, 56, 56, 58, 58, 59, 60, 60, 60, 60, 61, 61, 61, 62, 64, 65, 67, 67, 68, 69, 
71, 72, 74, 74, 77, 82 e 85. Um erro inferior a R$ 200 para o total do armazém, 
com 95% de confiança, é bastante aceitável. Alguém sugeriu usar uma AAS 


de 12 prateleiras. Você concorda com a sugestão? 


3.26 Estudo odontológico realizado em uma população de 1.000 crianças revelou o 
aparecimento de 2,2 cáries em média, a cada 6 meses. Introduziu-se uma pasta 
dental com nova composição e após um período de tratamento sortearam-se 
dez crianças para verificar os primeiros resultados, obtendo-se os seguintes 
números de cáries: 0, 4, 2, 3, 2, 0, 3, 4, 1 e 1. Qual seria a sua resposta após 


analisar os resultados. Declare as suposições feitas para as suas respostas. 


3.27 A prefeitura de Pepira pretende estimar o número de domicílios com pelo 
menos um morador com mais de 65 anos. Em uma amostra aleatória simples 
de 60 casas, 11 tinham pelo menos um morador idoso. A cidade tem 621 


domicílios, segundo os registros da prefeitura. 


a. Estime a proporção P de domicílios na cidade com moradores idosos, bem 
como o erro padrão. 

b. Se você deseja que o erro de estimação não seja superior a oito pontos 
percentuais para mais ou para menos, que tamanho de amostra deveria 


ser usado? 


3.28 Compare os planos AASc e AASs, destacando as principais vantagens de um 


e de outro. Em sua opinião qual é melhor e por quê? 


3.29 Uma amostra probabilística de 1.200 fazendas apresentou uma produtividade 


média de Jı = 560 caixas por alqueire e um erro padrão /var[y,| = 15. 


a. Para a safra seguinte, você planeja uma amostra similar. Quanto você 


imagina que seja o erro padrão da diferença Yı —Y2? Que suposições foram 
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feitas para responder à questão anterior? Como ficaria a sua reposta se 


as suposições não se verificassem? 


b. Se a segunda amostra tivesse apenas 400 fazendas, qual seria o erro padrão 
da diferença Jı — Yə? Quais as suposições necessárias? Como ficaria a 


resposta no caso de não serem verdadeiras? 


c. Da primeira amostra de 1.200, decidiu-se comparar duas subcategorias 
(grandes e pequenas), cada uma com 1/10 dos elementos da amostra. 
Qual a magnitude do erro padrão de Yọ — Jp? Que suposições foram 


feitas e como ficaria a resposta quando não fossem verdadeiras? 


Teóricos 


3.30 Prove o Teorema 3.7. 
3.31 Verifique a validade da expressão (3.22). 


3.32 Para uma população U de tamanho N, com D = (Y,...,Yw), mostre que 


3.33 Prove o Teorema 3.9. 


3.34 Mostre que um intervalo de confiança para o total populacional 7 com coe- 


ficiente de confiança aproximadamente igual a 1 — a é dado por 


s2 s2 
T — za NO f) T+ za NO - Do : 


Use o intervalo acima para construir um intervalo para o total de faltas no 


Exemplo 3.5. 
3.35 Verifique a validade da expressão (3.29). 
3.36 Prove o Lema 3.1. 


3.37 a. Elevando ao quadrado a expressão 32.4 Y; = Nu, mostre que YA; jz YiYj = 
(N = 1) (9 — Ny). 
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b. Utilizando o item (a), prove que para a AASs, 
2 


Covlyi, yj] = Nº 


c. Verifique a validade da expressão (3.35), usando o item (b). 


3.38 Considere a classe dos estimadores lineares Yp dados na Definição 3.1. En- 
contre a condição para que Ys, seja não viciado para o total populacional 7. 
Usando este resultado, mostre que 7? = T = Ny é o estimador de menor 
variância na classe dos estimadores lineares não viciados, considerando AASc 
e também AASs. 


3.39 Uma AASc de tamanho n = 3 é selecionada de um população com N ele- 
mentos. Mostre que a probabilidade de que a amostra contenha 1, 2 ou 3 


elementos diferentes (por exemplo, aaa, aab e abc, respectivamente) é 


1 3(N -1 NEN =2 
P, = — pp = ANT!) Do x ). 


Como um estimador de u considere 7, a média não ponderada sobre as uni- 


dades diferentes da amostra. Mostre que 


N-—1 N -2 N-3 
y| = S P, 4 P. Pi) 
Kerly] s DE SMS Can ee 
e conclua que 
$ 2N —1)(N — 1) 9? se 
ar [7] GN? 2) 3 


3.40 Para N = 3 e AASs com n = 2, considere o estimador 
tY, T 5X, se s=(1,2) 

Yr = iYi + 5Y3, se s={1,3} . 
5Y) + 5Y3, ses=(2,3) 


Mostre que Jz é não viciado e que Var[7,] < Var[y], se Y3(3Y2 — 3Y1 — Y3) > 0. 


3.41 Considere uma população onde Y é pequeno e Yy é grande. Para esta 


situação temos o estimador 


, seleseNéÊs 
selgseNEs,, 
J, selgseNéÊs 
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onde c é uma constante positiva. Verifique que 


S? 2c 
n N-1 


Varig] = (1 -— f) l (Yn -Yı no , 


de modo que Varly.) < Varlyl, se 0 < c < (Yn — Yı )/n. 


3.42 Discuta a obtenção das expressões para o tamanho da amostra para os casos 
do erro máximo relativo para as situações AASc e AASs para a média e total 


populacionais. No caso da média populacional, por exemplo, queremos n de 


p (= <r) =y 
u 


3.43 Para amostras de uma AASc de tamanho n de uma população com N ele- 


modo que 


mentos, mostre que a probabilidade de que não haja elementos repetidos é 
dada por (N)n/N”, onde (N)a = N(N —1)...(N-n+1). 


Capítulo 4 


Amostragem estratificada 


Amostragem estratificada consiste na divisão de uma população em grupos (estra- 
tos) segundo alguma(s) característica(s) conhecida(s) na população sob estudo, e de 
cada um desses estratos são selecionadas amostras em proporções convenientes. A 
estratificação é usada principalmente para resolver alguns problemas como: a me- 
lhoria da precisão das estimativas; produzir estimativas para a população toda e 
subpopulações; por questões administrativas, etc. Aqui será abordado muito mais o 
primeiro motivo. 

Foi visto que para uma amostra A ASc de tamanho n, a variância do estimador 


média amostral, 7, é dada por 
2 


nas ÃO 
Var[y] = —. 
n 
Aumentando o tamanho da amostra o erro padrão diminui. Se a população é 
muito heterogênea e as razões de custo limitam o aumento da amostra, torna-se 
impossível definir uma AASc da população toda com uma precisão razoável. Uma 
saída para esse problema é dividir a população em subpopulações internamente 
mais homogêneas, ou seja, grupos com variâncias o? pequenas que diminuirão o erro 


amostral global. 


Exemplo 4.1 Considere uma pesquisa feita em uma população com N = 8 do- 
micílios, onde são conhecidas as variáveis renda domiciliar (Y) e local do domicílio 


(W), com os códigos A para região alta e B para região baixa. Tem-se então, 


u = {1,2,3,4,5,6, T, 8}, 


p=(YY (18 w 6 5 10 12/19 6 
Awl \B A BBB A A BF!) 


com 
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Para esta população calcula-se os parâmetros: 


Para o plano AASc de tamanho n = 4, sabe-se também que 
24 
Varly] = r 6. 


Usando a segunda variável para estratificar a população em dois estratos, constrói-se 


as seguintes subpopulações: 


Ua = {2,6,7}, D4 = (17,12,19) 


Up = {1,3,4,5,8}, Dp = (13, 6,5, 10,6), 


com os seguintes parâmetros: 
ua=16, 28,7, up=8 e 0,=9,2. 
Sorteando-se em cada estrato uma amostra A ASc de tamanho n = 2, tem-se que 


8,7 
Var [74] S A = 4,35 


9,2 


Var [yp] = = 4,60. 


Baseado em y4 e Jpg é preciso construir um estimador para u, a média populacional. 
Será visto adiante que uma possibilidade é considerar 
_ 39a t YB 
Ues = o = ai 
8 
já que 3y4 é um estimador para TA e 5yp é um estimador para Tg. Será visto 
também que 


= 9 o 25 bas dao 
Var [Des] = oa lya] + Pai [yp] = 2,4. 
Pode-se então medir o efeito do planejamento: 


— Var [Bes] 


EPA = x24 


Var] 6,0 


0,40. 


Portanto, com o mesmo tamanho da amostra consegue-se diminuir a variância do 


estimador em mais da metade. 
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O resultado será mais eficaz quanto maior for a habilidade do pesquisador em 
produzir estratos homogêneos. O caso limite é aquele onde consegue-se a homoge- 
neidade máxima (variância nula dentro de cada estrato) onde então a estimativa 
acerta o parâmetro populacional. A simples estratificação por si só não produz 
necessariamente estimativas mais eficientes que a AAS. O Exemplo 4.2 ilustra tal 


situação. 


Exemplo 4.2 Considere agora a mesma população do Exemplo 4.1, porém dividida 


nos seguintes estratos: 
WU = {1,2,3,4}, e U= {5,6,7,8}, 
com os seguintes dados: 
D; = (13,17,6,5) e Də = (10,12,19, 6) 
cujos parâmetros são: 
u = 10,25, øo? 24,69, pu2=11,75 e 222,19. 


Conseqüentemente, para a AASc dentro de cada estrato, com nı = n2 = 2, tem-se 


que 
24,69 
Varly,| S En = 12,34 
: 22,19 
Varly,]| S 3 = 11,09. 
Finalmente, 
16 16 
Var[Tes] = 591234 + z711 09 = 5,86, 
z 5,86 
EPA % >— = 0,98 
6,00 Eira 


que mostra o plano estratificado com desempenho bastante próximo ao do plano 


AASc para a estratificação considerada. 


A execução de um plano de amostragem estratificada (AE) exige os seguintes 


passos: 
i. divisão da população em subpopulações bem definidas (estratos); 


ii. de cada estrato retira-se uma amostra, usualmente independentes; 
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iii. em cada amostra usam-se estimadores convenientes para os parâmetros do 


estrato; 


iv. monta-se para a população um estimador combinando os estimadores de cada 


estrato, e determinam-se suas propriedades. 


4.1 Notação e relações úteis 
Considere uma população bem descrita por um sistema de referência, ou seja, 


USED NI 


e que exista uma partição ,...,Uy de U, isto é, 
H 
(4.1) U=Jun eU o, 
h=1 
parah£h'=1,...,H, e que cada subconjunto Up, bem determinado, é identificado 


por duplas ordenadas, do seguinte modo: 
Un = {(h,1), (h,2),..., Na) 
Assim, o universo todo pode ser descrito por 
U = 4{(1,1),..., (1, N1), --.,(h,1),..., (h,¢),..., (h, Nh), -..,(H,1),..., (H, Ng)}, 


de modo a facilitar a identificação do estrato e do elemento dentro dele. De modo 
análogo, as características populacionais serão identificadas por dois índices, ou seja, 


no caso univariado, por exemplo, tem-se o vetor de características populacionais 
(4.2) D = (Mest YIN e- ss Yhis -< -, YHNg), 


ou seja, para o estrato 1 tem-se as características populacionais Y,...,Yin, € 
assim por diante. Pode-se representar também a população com as características 
populacionais e algumas funções paramétricas populacionais através da Tabela 4.1. 


Eis algumas definições e relações entre os parâmetros: 


e Np: tamanho do estrato A; 


Np 
e m = > Yni: total do estrato h; 
i=1 


4.1 Notação e relações úteis 97 


Tabela 4.1: Uma população estratificada 


Estrato Dados Total Média Variância 
1 Y4* TI u= Yı o? ou S? 
h Yp * Th un = Yh o? ou S? 
H Yg” TH UH =YW ot ou S3 


* onde Yj = (Ynı,..-, Ynn, ) é o vetor de dados no estrato h, h = 1,..., H. 


N 
= 1 h 
e un=>Yh=— pao média do estrato A; 
Nha i 
Iê 
° r Sa 5 (Yhi — un): variância do estrato h; 
h i=l 
pA 
e o = — X (Yni un): variância do estrato h; 
Nha 
H 
e N= Yo Np: tamanho do universo; 
h=1 
Nh a 
e W, = y Peso (proporção) do estrato h, com 5 Wp = l; 
h=1 
H H Np H 
e r= y THE 5 5 Yi = 5 Nnun: total populacional; 
h=1 h=1i=1 h=1 
E T 1 H Npn H H 
e u=Y= N N 5 X Yri =F se Nnn = 5 Wan: média populacional; 
h=1i=1 h=1 h=1 


de modo que a média global é a média ponderada dos estratos. 
Um resultado bastante importante e também conhecido, envolvendo formas 


quadráticas, estabelece que (veja o Exercício 4.30) 


H H H 
(4.3) DD Onm- SYY Ym un) +Y Nn (n n)’, 
= 
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que permite escrever 


h=1 i=1 h=1 


H 
= T (Yni — un)? + XO Nn (un — u)? 


H H 
So Naa +, Na (ta — Ph 
h=1 hd 

H 


N 
H 

(4.4) = 5 Wro? + 5 Wa (un — u)? ; 
h=1 = 


ou ainda 


onde 


é a média das variâncias dos estratos (variância dentro) e 


H 
Di 2 
=> Wn (unr — H) 
h=1 
mede a variação das médias dos estratos (chamar-se-á de variância entre estratos). 
Para a expressão S2, tem-se, de modo análogo, 
EN a NE 


2a | 2 


ou para estratos relativamente grandes, 
2 2 2 2 2 
STA e ~ Si+ o$, 


onde 82 = SL, Wp S2. Convém observar que quando todos os estratos têm a mesma 
média, ou seja, up = u, h=1,...,H, a variância populacional o? coincide com Tá. 
Quanto maior for o2, maior é a diferença o? — o2. 

Para se obter informação sobre as funções paramétricas de interesse, uma 
amostra sp é selecionada do estrato A, h = 1,...,H, de acordo com algum plano 
amostral especificado Ap, h = 1,...,H. Como no caso da AAS (ver Definição 2.6), 


tem-se associado com a seleção da amostra no h-ésimo estrato as variáveis aleatórias 


(4.5) Yn1, +++» Yhnp 
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h = 1,...,H, que assumem os valores Yp1,...,Yhn,, com probabilidades depen- 
dendo do plano amostral utilizado. 
A nomenclatura usada para denotar estatísticas é semelhante àquela usada 


para denotar as funções paramétricas populacionais. Desse modo tem-se 


1 
Yh SS 5 Yhi, 
Nh iESh 
Th = X Yni 
iESh 
e 
1 


que denotam, respectivamente, a média, o total e a variância amostral no estrato h, 


h= 1,..., H, enquanto que para a amostra toda, s = (Ei Sh, de tamanho 
H 
n= Dm 
h=1 
tem-se que 


Antes de terminar é importante lembrar algumas propriedades de variáveis 
aleatórias (ver Bussab e Morettin, 2004, Capítulo 8). Se X14,..., Xp são variáveis 


aleatórias independentes, então para X = DN lh Xp 


H 

(4.6) E[X] = 5 hE[X: 
h=1 

k H 

(4.7) Var[X] = X` GVar[X,). 
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4.2 Estimação do total e da média populacional 
Considere a seguinte situação: 
a. uma população estratificada como na seção anterior; 


b. de cada estrato foi sorteada independentemente uma amostra de tamanho np, 


podendo ou não ter sido usado o mesmo plano amostral dentro de cada estrato; 


c. seja fi um estimador não viesado da média populacional up do estrato h, ou 


seja, EAlfin| = Hn, onde A é o plano usado no estrato h. 


Então: 


Teorema 4.1 O estimador 
H 
Tes = > Nhlin 
h=1 


é não viesado para o total populacional T, com 


H 


Varal”. DR N? Varalin]. 
h=1 


Prova. Usando as relações (4.6) e (4.7) tem-se, para um plano amostral A, que 


H 
EAlTes] = > NuEalfn] =Y Nun = Sas 
h=1 
e 
VaralT. = NiVaraliin). 
h=1 
Corolário 4.1 O estimador 
1H H 
Yes = N > Nn mi hÉin 
h=1 h=1 


é um estimador não viesado da média populacional u e 


Varal7es| ES W2Varalíin]. 
h=1 
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Corolário 4.2 Considere agora que, dentro de cada estrato, a amostra foi sorteada 
por um processo AASc e que fin = Yp. Então, tem-se para as duas situações acima 


as seguintes fórmulas: 


H H 
o 
Tes => NY, Var|Tes] = X` Ni 
h=1 


hei "h 
e 
H H o2 
a 8 = Aa 20h 
Yes = 5 WhUh, Varl7es| F, 5 W; ms 
h=1 h=1 h 
com estimadores não viesados dados por 
H 82 
2 Sh 
var|Tes] = 5 Ni = 
h 


2 


H 
= 2 Sh 
var [Yes] = ) Wj—. 
h= Ph 


Este procedimento e a sua variante sem reposição (veja o Exercício 4.35) é um 


dos planos amostrais mais usados em problemas reais. 


Exemplo 4.3 (Continuação do Exemplo 4.1) Com os resultados do teorema e co- 
rolários ilustrados fica fácil agora verificar como foram encontradas as variâncias 


mencionadas no Exemplo 4.1. Sugere-se ao leitor verificar os resultados obtidos. 


4.3 Alocação da amostra pelos estratos 


A distribuição das n unidades da amostra pelos estratos chama-se alocação da amos- 
tra. Essa distribuição é muito importante pois ela é que irá garantir a precisão do 


procedimento amostral como pode ser visto no Exemplo 4.4. 


Exemplo 4.4 Considere agora a população do Exemplo 4.1 com a seguinte estra- 
tificação: 
U = {2,4,7} com D; = (17,5,19) 


Us = {1,3,5,6,8} com Də = (13,6,10,12,6), 


com os seguintes parâmetros populacionais: 


u S 13,7, S? =57,3, u2=9,4 e 92= 10,8. 
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Considere também uma primeira situação em que em ambos os estratos usou-se 
AASs, com nı = 1 e n2 = 2 (alocação ALı), ou seja, n = 3. Usando os resultados 


do Teorema 4.1 tem-se 


a 1\ 57,3 5\? 2\ 10,8 
Varara lne] = ($) (1 5) i (5) (1 =) z = 6,64. 


Imagine agora a alocação contrária, isto é, n = 2 e n2 = 1 (alocação AL»), de modo 


que n = 3, resultando em 


3\? 2\ 57,3 5\? 1\ 10,8 
Vararales] = (5) (1 5) 5 (5) (1 5) — E4,72. 


Comparando as variâncias obtém-se 


Varar, [es] x~ 6,64 
VarAr [Fes] 4, 72 


= 1,41, 


ou seja, a segunda alocação reduz a variância, onde se conclui a importância do 


processo de alocação. 


Antes de prosseguir, convém observar que quanto maior a variância do estrato, 
maior deve ser também a amostra a ele designada. Porém, deve ser balanceado com 
o tamanho do estrato, representado por Wp e fn, h = 1,..., H. 

Nas considerações que serão feitas a seguir, as deduções serão feitas supondo 
que dentro de cada estrato foi usado o esquema AASc. Caso seja usado qualquer 
outro esquema, pode-se usar o mesmo procedimento para encontrar as propriedades 


dos estimadores de interesse. 


4.3.1 Alocação proporcional 


Neste tipo de procedimento a amostra de tamanho n é distribuída proporcionalmente 


ao tamanho dos estratos, isto é, 


Np 
4.8 na = NWp = n—. 
(4.8) p= nW, nN 
Este procedimento, é muitas vezes, também chamado de amostragem “representa- 
tiva”. Aqui será usada a nomenclatura Amostragem Estratificada Proporcio- 


nal (AEpr). 


Teorema 4.2 Com relação à AEpr, o estimador Je, é igual a média amostral sim- 


ples y, com 


Es o? o 
Vpr = Varlyes] E 5 Wp -> = E 
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que é estimado por 


H 82 
var Ues] = 5 Wp. 
Prova. Partindo da média Jes e da expressão (4.8) tem-se 


Yes = Dmm MEDY- Sma D O Da 


h ics, h iesp M lies, 


Tem-se também que 
nn nWh n 


CN, NW, N 


e que 
W2 W2 Wn 
nn nW, n` 


Substituindo em Var[y..|, juntamente com o Corolário 4.2, tem-se que 
20h On oh On — Cd ã 
(4.9) Varl7es| a Wiz D W, — = — 
Como dentro de cada estrato, s? é um estimador não viesado para o2, então 


var [Jes] D wm, 


é um estimador não viesado de Varl[7.,] = Vpr O que conclui a prova do teo- 


rema. 


Observe que a expressão (4.9) sugere que o plano amostral estratificado pro- 
porcional “equivale” a estudar as propriedades do estimador Y associado à AASc, 
retirada de uma população com variância Gi: Pede-se ao leitor tentar interpretar 


esta afirmação e verificar o seu significado. 


4.3.2 Alocação uniforme 


Na Amostragem Estratificada Uniforme (AEun) atribui-se o mesmo tama- 
nho de amostra para cada estrato. É o procedimento indicado quando pretende-se 
apresentar estimativas separadas para cada estrato. Para cada um dos H estratos 


têm-se 


Deste modo, tem-se o 
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Corolário 4.3 Com relação à AEun, Jes é um estimador não viesado com variância 


expressa por 


que é estimada por 


Prova. Basta aplicar as especificações acima nos resultados do Corolário 4.2. 


4.3.3 Alocação ótima de Neyman 


Nesta seção sertá discutido o problema de como alocar o tamanho da amostra pe- 
los vários estratos de tal forma que certas condições sejam verificadas. Para isso 


considera-se uma função de custo de forma linear, isto é, 


H H 
(4.10) C = co + 5 cana o Œ =C- o= X ChNh, 
h=1 h=1 


onde co denota o custo inicial, cp o custo por unidade observada no estrato h e C” 


o custo variável. De acordo com o Corolário 4.2, escreve-se 
H o2 
ns E e 20h — 
Varlyes] = bD W e Vos. 
h=1 h 
Mais especificamente, o problema é minimizar Ves para C fixado ou minimizar 


C para Ves fixado. Este problema tem uma solução única e bastante simples quando 


se utiliza a desigualdade de Cauchy-Schwarz, 


2 
(4.11) TER) (Danda), 
de modo que a igualdade ocorre quando 
e k (constante), 
ah 


para h = 1,..., H. 


Teorema 4.3 Na AE com a função de custo linear, temos que Ves é mínimo para 


C" fixado ou O” é mínimo para Ves fixado se 


a Whon/VCh 
Di Whon/Vch 


(4.12) nh = h=1,...,H. 
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Prova. O problema consiste então em minimizar 


(4.13) Vos = e wÈ 
Nha 


sujeito a um custo fixo C’, ou minimizar o custo C” para uma variância Ves 
fixada. Então, minimizar V.s para C” fixado ou C” para Ves fixado é equivalente 


a minimizar o produto 


(4.14) Vo" = 2 w? à) 2 com) 


h=1 


Identificando o produto V.sC” em (4.14) com o lado esquerdo da desigualdade 


de Cauchy-Schwartz, tem-se que 

Whon 
V'h 
de modo que o produto VesC” em (4.14) é mínimo quando 


(4 15) bh /ChNh 2 _ MhyCh = 
an  Whaon/Vnn  Whnon i 


bn = VChNh, 


Ah = 


h=1,...,H, onde k é uma constante. Tem-se então de (4.15) que o produto 
V.sC” é mínimo quando 

W; 
(4.16) A E! 


ca 
h=1,...,H. Como a nn = n, tem-se de (4.16) que 

o n 

Dia Wion/ Vea 
Substituindo-se (4.17) em (4.16), obtém-se o resultado (4.12). 


(4.17) 


Portanto, de acordo com o Teorema 4.3, o número ótimo de unidades a serem 
observadas no estrato h é diretamente proporcional a Naap e inversamente propor- 


cional a 4/ch. Tem-se também (veja o Exercício 4.29) 


Corolário 4.4 


i. Para C" fixado, o tamanho ótimo da amostra é dado por 


(4.18) n = Et 1 Nnon/ Ch 
Dies Nhony/Ch 
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ii. Para Ves fixado, o tamanho ótimo da amostra é dado por 


1/8 E Wo, 
(4.19) n= Ve [> Waor van] > Ja ) ; 


h=1 


onde Wn = Nn/N, como antes. 


Corolário 4.5 Para o caso em que o custo por unidade observada em todos os 


estratos seja fixado em c, isto é, 
1 
C = C — c = nc, 


a alocação ótima se reduz a 


N On 
H b) 
Dh=1 Nhan 


h=1,...,H. Neste caso Ves reduz-se a 


(4.20) np =n 


2 


1/H 
4.21 Voa = — Whpon | = 
a s= (Emos) 


o 
, 
n 


onde O = E Wpon é um desvio padrão médio dentro de cada estrato. 


A alocação (4.20) é usualmente conhecida por alocação ótima de Neyman. 
Neste caso, o número de unidades a serem observadas no estrato h é proporcional a 


NhOh. 


4.3.4 Efeito do planejamento 


O resultado a seguir apresenta comparações entre a utilização de um planejamento 
AE com alocação proporcional, a de um planejamento com alocação ótima e a uti- 


lização de um planejamento AAS com reposição. Seja 


o? 
Ve = Varaascl] = T 


e como visto no Teorema 4.2, para a alocação proporcional, 
(4.22) 1 2 o? 
É V st W or = — 
o on 3 ik= y? 


corresponde à AE com alocação proporcional. E para a alocação ótima com n fixo, 


temos a variância Və dada por (4.21). 
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Teorema 4.4 Com relação à AASc, tem-se que 
Heret 


Prova. De acordo com (4.4), tem-se que 


H Np 
No? = 5 5 (Yri — W)’ 
h=1 i=1 
H H 
(4.23) = X Naoh t Y NM(un— p). 
h=1 h=1 


Então, a? em (4.23) pode ser escrita como 


H H 
2 2 2 2 2 
gi = > Wro + > Walun — u) =oj+o. 
h=1 h=1 
Conseqiientemente, escreve-se 
2 2 2 


oj o 


Ve = += Vr + =. 
n n 


n 
Já que o2/n é sempre não negativo, 


Vie 


Por construção, sabe-se que Vo < Vpr. Por outro lado, (veja o Exercício 4.31) 


H H 2 
Vpr — Voa = S mo = (5 Waon) 


h=1 h=1 
H 2 
1 oq 
4.24 = =X Wi(0n-0) = —2 
(4.24) n n(Oh — T) - 


onde, como em (4.21), 7 = = q Wpohn, que juntamente com Tip indica a 
variabilidade entre os desvios padrões dos estratos. Quanto maior for a hete- 
rogeneidade dos dados pelos estratos, com mais ênfase recomenda-se o uso da 


alocação ótima. Portanto, 


2 2 g2 
(4.25) A E E L E 
n n n 


Estas últimas expressões demonstram o teorema e permitem concluir quando 
deve ser usada cada alocação. Assim, sempre que os estratos tiverem médias 
distintas (o2 grande) deve-se usar alocação proporcional ou ótima. Se além 
disso, também os desvios padrões de cada estrato diferirem muito entre si (ip 


grande), recomenda-se a alocação ótima. 
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Com os resultados do Teorema 4.4 deriva-se os efeitos do planejamento para 


cada um dos planos acima. Assim, 


Varsgpr [Tes] Vpr 


EPA|AE = = 
ABr] Varaascl9] Ve 
H á o2 
= aco DM 
E 


Ou seja, se 1/Nh for desprezível, o plano estratificado proporcional produz variâncias 
sempre menores que aquelas produzidas por uma AASc de mesmo tamanho, e este 
ganho é maior quanto maior for o2, isto é, quanto maior for a diferença entre as 
médias dos estratos. Para amostras muito grandes, o lucro desaparece. 


Para a alocação ótima (AEot) tem-se que 


Var AEot [Ves] Vot 


EPA|AFot| = = 
| Varaascl7] V. 
o2 1 H 
— = En. W, sa A 
nV nV 2 n(Oh o ) 
o? Tap 


Observe novamente que o EPA é sempre menor do que 1, mostrando a vantagem 
do uso deste plano. Esta vantagem (lucro) cresce com o aumento da diferença entre 
as médias dos estratos, isto é, c2 grande. Observe que o último termo da expressão 
mede a variabilidade dos desvios padrões dos estratos, o que significa que o ganho 
da alocação ótima cresce com a diferença entre as variabilidades dos estratos. 

O conhecimento destes fatos é importantíssimo para orientar o estatístico a 
desenhar o plano amostral mais conveniente. A não ser em situações muito parti- 
culares, o plano AE produz variâncias sempre menores do que as correspondentes 
variâncias obtidas com o plano AASc. A prova algébrica deste resultado é bas- 
tante trabalhosa. Entretanto, considere uma situação particular, onde esta relação 
pode ser explorada. Suponha que dentro de cada estrato foi usado o plano AASc 


(denotado por AEc), de modo que 


VarAEc [Yes] = PA Wioi/nn 


EPA[ÃAEc] = 
id Varaascly] o? jn 
H 2 2 H 2 
Wf o Wp Oh 
4.27 E h Oh SW Mk (=) | 
(821) 2 np /n o? 2 wn No 
onde Wp = nn/n, h = 1,...,H. Observando-se a expressão acima verifica-se a 


dificuldade em se concluir se a mesma é maior ou menor do que 1. Usualmente o 
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processo de estratificação leva a uma maior homogenização dos dados, de modo que 
on/0 < 1 e por estar elevado ao quadrado poderia anular situações onde W/wn > 1, 
o que levaria ao somatório acima ser menor do que 1, ou seja, a variância da AE 
seria menor do que a variância obtida com o plano AASc. Entretanto é possível 


construir contra exemplos onde isso não se verifica (ver Exercíco 4.34). 


4.4 Normalidade assintótica e intervalos de confiança 


Conforme o tamanho da amostra aumenta, as distribuições de Yes e de Tes = Fes 
vão se aproximando da distribuição normal, de acordo com o TLC. Estes resultados 
continuam valendo com as alocações discutidas nas seções anteriores. Veja o Capítulo 
10, onde condições são estabelecidas para a validade do TLC. Então, para np e Ny 


suficientemente grandes, temos que 


(4.28) Že — ~ N(0,1) 
1 WoR Nh 

e que, j 

(4.29) a & N(0,1). 


CA Ngaz Nh 
Como o? não é conhecido nas expressões (4.28) e (4.29), ele é substituído por 
seu estimador não viciado sZ, considerado na Seção 4.1. Usando o mesmo enfoque da 
Seção 3.2.4, temos que um intervalo de confiança para u com coeficiente de confiança 


aproximadamente igual a 1 — a é dado por 


s2 
5 Wig Tes + Za 


Um intervalo para 7 pode ser obtido de modo análogo. 


4.5 Determinação do tamanho da amostra 
Utilizando (4.28), pode-se determinar n de modo que 
P([Ues — H| < B)>~1-aq, 


onde 


(4.30) 
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Dado que a equação (4.30) depende de np e não de n diretamente, será consi- 


derado que 
NA = NWh, 
onde wp é conhecido, h = 1,...,H. Em particular, pode-se considerar wp = Wp = 
Nh/N, resultando em 
LE o) 
4.31 n= — Wo? = dr 
(4.31) DE Mot =T 


onde D = B2/z2, como antes. A correspondente expressão para n no caso da 


estimação do total populacional é considerada no Exercício 4.28. 


4.6 Estimação de proporções 


Como um caso particular das situações estudadas nas seções anteriores, aparece a 
situação onde o interesse é estudar a ocorrência de determinada característica na 
população. Tal característica pode ser, por exemplo, a preferência por determinado 
partido político, por um candidato em uma eleição, por determinada marca de pro- 
duto, e assim por diante. Nestas situações, a quantidade de interesse associada ao 


j-ésimo elemento no h-ésimo estrato pode ser representada por 


y, 1, se o elemento (h,i) possui a característica 
hi = du 
0, caso contrário 


N ; ae 
Sendo 7h = >,;-*, Yni, O número de elementos que possuem a característica no 


estrato h, tem-se que 


Th 
P = —— = 
RON h kgh 
é a proporção de elementos que possuem a característica no estrato h, h = 1,..., H. 


Então, a proporção de elementos na população que possui a característica pode ser 


escrita como 
H 


P= X MAP 
h=1 


onde Wp = Np / N, como nas seções anteriores. Dada uma amostra sp de tamanho np 
selecionada segundo a AASc no estrato h, pode-se então definir para P o estimador 
H 


Pes = Pes = Yes = NO War Ph, 
h=1 
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onde 


e Th é o número de elementos na amostra que possuem a característica no estrato 
h,h=1,...,H. 


Identificando pes com Yes, e usando o fato de que 


Nh 
1 
= N, X (Yni — Ph)? = Pa(1 — Ph), 
h = 
conforme verificado na Seção 3.2.6, temos o (veja o Exercício 4.32) 


Teorema 4.5 Com relação à AE com reposição, tem-se que 


H 
Pes = Pes = Yes = X Wn Ph, 
h=1 


é um estimador não viciado de P com 


(4.32) Ves = Var [Pes] = >» Wi ; 


onde Qnr = 1 — Pa, h= 1,..., H. 


O resultado a seguir é uma consequência direta do Teorema 3.5. Veja o 


Exercício 4.33. 


Teorema 4.6 Um estimador não viciado de Ves com relação à AE com reposição é 


dado por 


onde Ôn =1— Pa. 


Utilizando a aproximação normal discutida na Seção 4.4, encontra-se um in- 
tervalo de confiança aproximado para P. Dado o coeficiente de confiança y = 1 — a, 
segue dos Teoremas 4.5 e 4.6 que um intervalo de confiança para P com coeficiente 


de confiança aproximadamente y, é dado por 
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Usando a função de custo linear C = co + Eu ChNh, à alocação ótima segue 


diretamente do Teorema 4.3 e é dada por 


= Nn y PhQn/cn 
Di Nay PhOn en 


Quando o custo é constante, do Corolário 4.5 tem-se que a alocação ótima de 


np = 


Neyman passa a ser 


a Nany PhQn 
Dia Nav PROA. 


Não dispondo de informação preliminar sobre P,, como amostras pilotos ou pesquisas 


(4.33) nu 


anteriores, substitui-se PQr por 1/4 na expressão (4.33), por ser um limíte superior, 
levando a alocação proporcional. 


Verifique a aplicabilidade dos Corolários 4.4 e 4.5 para o caso das proporções. 


Exercícios 


4.1 Uma população está dividida em 5 estratos. Os tamanhos dos estratos, médias 


(un) e variâncias (S?) são dadas na tabela abaixo. 


h Nr m ASF 

Dor a ia] 
2 98 69 203 
3 74 11,2 1,13 
4 41 91 196 
5 45 96 1,74 


a. Calcule u e g? para esta população. 


b. Para uma amostra de tamanho 80, determine as alocações proporcional 


e ótima (de Neyman). 


c. Compare as variâncias dos estimadores obtidos com a AASc e com a AE 


com alocação ótima. 


d. Faça o mesmo para a AASc e a alocação proporcional. 


4.2 Uma população foi dividida em dois estratos, conforme resultados expressos 


pela tabela abaixo. 
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h Wp Oh Ch 
1 04 10 4 
2 0,6 20 9 


Considere o custo linear, co = 0 e AASc. 


a. Encontre nı/n e no/n que minimiza o custo total para um dado valor de 
Ves. 
b. Encontre o tamanho da amostra sob a alocação ótima (a) quando Ves = 1. 


Qual será o custo total? 


4.3 Em uma estratifição com dois estratos, os valores de W, e op são dados na 


tabela abaixo. 


h Whe on 
0,8 2 


2 02 4 


Calcule em cada caso, com AASc, os tamanhos das amostras nı e no que 


satisfazem as seguintes condições: 


a. O desvio padrão da estimativa Jes é Ol e n = ny + no tem que ser 
minimizado; 
b. O desvio padrão da estimativa da média em cada estrato tem que ser 0,1; 


c. O desvio padrão da diferença entre as médias estimadas em cada estrato 


tem que ser igual a 0,1. 


4.4 Planejou-se uma amostragem estratificada com reposição para estimar a por- 
centagem de famílias tendo conta em caderneta de poupança e também da 
quantidade investida. De uma pesquisa passada, tem-se estimativas para as 
proporções P, e para os desvios padrões das quantidades investidas, oh, con- 


forme descrito na tabela abaixo. 


h W, Pr on 
1 06 0,20 9 
2 03 0,40 18 
3 01 0,60 52 


Calcule os menores n e ny que satifaçam, com custo constante: 
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a. À proporção populacional dever ser estimada com erro padrão igual a 
0,02; 


b. A quantidade média investida deve ser estimada com erro padrão igual a 
R$ 2,00. 


Qual dos tamanhos, em (a) ou em (b), você usaria na pesquisa? Por que? 
4.5 Refaça o Exercício 4.1 considerando agora AASs dentro dos estratos. 


4.6 Considere a população do Exemplo 4.1 com a estratificação Uy = {1,2,4,7} 
e Us = {3,5,6,8}. Considere amostras AASc de tamanho 2 de cada um dos 
estratos. Encontre a variância do estimador Yes € o erro quadrático médio do 


estimador Jm, definido em (4.35). Qual é o melhor estimador? 


4.7 Considere a estratificação do Exemplo 4.2. Encontre Ely...) e Var[y..| quando: 
a. nı = 1 e n = 3; 


b. ni=3emnm =l. 


4.8 Numa população dividida em 3 estratos, tem-se os seguintes pesos Wp e pro- 


porções P, obtidas com uma amostra piloto: 


h W, Ê 

1 05 0,52 
2 0,3 0,40 
3 0,2 0,60 


a. Se fôssemos usar uma amostra casual simples (AASc) de 600 elementos, 
qual seria a estimativa da variância da estimativa da proporção popula- 


cional? 


b. Que tamanho deveria ter uma amostra estratificada proporcional para 


produzir a mesma variância anterior? 


c. Com n igual ao obtido em (b), como seria a repartição ótima e qual a 


variância? 


d. Compare os resultados e diga quais as suas conclusões. 


4.9 Considere a população da Tabela 2.8. 
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a. Selecione uma AASc de tamanho n = 54. Calcule y e Var). 


C. 


. Divida a população em 3 estratos, onde as primeiras 60 unidades formam 


o primeiro estrato, as segundas 60 unidades formam o segundo estrato e 
assim por diante. Selecione uma amostra AASc de 18 unidades de cada 


estrato. Encontre Jes e calcule Var[7.,). 


Compare os resultados encontrados em (a) e (b). 


4.10 Usando os dados do Exemplo 4.1: 


a. 


C. 


Construa o espaço amostral Saass(U) para o plano AASs e a distribuição 
de y para n = 4; 


. Considere o plano AE com nı = n2 = 2 (alocação uniforme) e construa 


Sagun(U), e a distribuição amostral de Jes; 


Compare as distribuições obtidas em (a) e (b). 


4.11 Considere a população dos 50 maiores municípios do Brasil disponibilizada 


no site do IBGE. Divida a população em dois estratos, onde no primeiro estrato 


estejam os 10 maiores municípios e no segundo estrato os 40 restantes. 


a. 


e. 


Selecione uma A ASc de 5 municípios de cada estrato e calcule a estimativa 


Yes € a estimativa de sua variância. 


. Considerando alocação proporcional, selecione uma amostra AASc de 10 


municípios da população e calcule a estimativa de u, juntamente com a 


estimativa de sua variância. 


. Considerando alocação ótima de Neyman, selecione uma amostra AASc 


de 10 municípios, considerando os valores populacionais das variâncias de 
cada estrato. Encontre a estimativa de u juntamente com a estimativa 


de sua variância. 


. Retire uma amostra piloto de 3 unidades de cada estrato e calcule es- 


timativas da variância em cada estrato. Recalcule a alocação ótima de 
Neyman usando esses novos valores. Encontre uma estimativa de u com 


a estimativa de sua variância. 


Compare os resultados em (a)-(d). 


4.12 Os dados abaixo se referem a uma população dividida em dois estratos e em 


que cp é o custo de amostrar um elemento do estrato h. O custo previsto para 


o levantamento é de 9.000 unidades de dinheiro (ud). 
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h Wp P, Ch 
1 0,25 0,20 9 
2 0,75 0,80 1 


. Que valores de nı e n2 irão produzir a menor variância para a proporção 


total P? Quais os valores de Var[pes] € Var [Ê — A para esta alocação? 


. Qual a alocação para uma AE proporcional? Quais os valores de Var [pes] 


e Var [Ê — Ê, neste caso? 


. Encontre os valores de nı e no que minimizam Var [Ê — Ê»). E neste 


caso, quais as variâncias acima? 


. Suponha agora que o custo é o mesmo em ambos os estratos e vale 3 ud. 


Qual o valor de Var[pes] para a alocação ótima? Encontre a alocação 


para Var [Ê — Ê, e o seu valor. 


4.13 Possuímos a seguinte informação sobre o número de alfabetizados de uma 


região de 100 mil pessoas: 


Estrato Grupo etário Nº de pessoas Proporção de alfabetizados 


1 15 a 24 25.000 0,50 
2 25 a 34 20.000 0,30 
3 35 a 49 40.000 0,10 
4 50 ou mais 15.000 0,01 


Queremos planejar uma amostra para, daqui a 6 meses, após um programa de 


alfabetização, estimar a proporção de alfabetizados. 


a. Qual deve ser o tamanho numa amostragem estratificada proporcional 


para que o coeficiente de variação do estimador seja 10%? Determine a 


alocação da amostra pelos estratos. Sugestão: considere 1/N = 0. 


. Compare a alocação proporcional com a alocação ótima, supondo o mesmo 


tamanho geral que aquele obtido em (a) e o mesmo custo unitário para 


obter cada informação. 


. Se os custos de obter as informações pelos estratos forem 9,4, 4 e 1, e se 


pudéssemos gastar R$ 1.725,00, qual seria a alocação ótima ? 
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4.14 Para estimar o número médio de empregados por indústria, resolveu-se con- 
duzir uma AE proporcional ao tamanho do estrato, com as indústrias estrati- 
ficadas de acordo com o faturamento. A constituição da população e os dados 


obtidos em uma amostra de 1.000 indústrias seguem abaixo. 


Faturamento Na Ne Ha S? 

Baixo 4.000 200 80 1.600 
Médio-baixo 10.000 500 180 2.500 
Médio-alto 5.400 270 270 2.500 
Alto 600 30 400 5.600 


Aa © N ej 


onde Np é o número de indústrias, n, é o tamanho da amostra, Jp é o número 


médio de empregados e 


a. Estime o número médio u e o total r de empregados. 
b. Estime as variâncias dos estimadores de u eT. 


c. Se os custos para cada unidade em cada estrato é dado por cn = 34+h,h = 
1,2,3,4, qual seria a partição ideal para as 1.000 unidades amostradas, 
através dos 4 estratos? (Use as variâncias amostrais como variâncias 


populacionais.) 


d. Supondo que as 1.000 unidades foram obtidas como amostra casual sim- 
ples, como seria a variância do estimador da média populacional? Calcule 
o quociente entre as variâncias obtidas em (b) e aqui, comentando o re- 


sultado. 


4.15 Para investigar o rendimento médio dos empregados no setor bancário de 
uma grande cidade, criaram-se dois estratos. Um formado pelos empregados 
dos bancos estatais ou mistos e outro pelos empregados da rede privada. De 
cada um desses estratos foi retirada uma amostra aleatória simples, e realizados 
os estudos de interesse. Agora há interesse em estimar, baseando-se na mesma 
amostra, o total dos rendimentos das mulheres empregadas pelo setor bancário. 
Você foi encarregado de apresentar um estimador e sua respectiva variância, 


definindo os parâmetros e variáveis usadas. 


4.16 Deseja-se estimar o número de moradores numa dada região. Por questões 
de interesse e devido ao grau de informação, a região foi dividida em 3 estra- 


tos. Decidiu-se usar, dentro de cada estrato, amostragem em dois estágios, 
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adotando-se grupos de casas como UPA, e casa como USA. Em cada casa, 


contou-se o número y de moradores. 


i. No estrato 1, as UPA's têm tamanhos diferentes e sortearam-se duas 
UPAs com probabilidade proporcional ao tamanho (PPT), com reposição 


e, de cada UPA, subsortearam-se, também com reposição, duas casas. 


ii. No estrato 2, também os quarteirões tinham um número diferente de ca- 
sas, e sortearam-se duas UPA's com igual probabilidade, e entrevistaram- 


se todas as casas. 


iii. No estrato 3, as UPA's foram criadas de igual tamanho e, de cada uma 
das UPA's sorteadas, sem reposição, entrevistaram-se duas casas também 


sorteadas sem reposição. 


Resumindo, temos: 


sina Total de Nº de casas na Nº de moradores 
strato 
casas UPA sorteada nas USA's sorteadas 
10 5,3 
1 500 
18 5, 6 
2.1 
2 300 3 pd e 
5,4,8,3,2,4 
1 4 
3 200 ; pal 
10 6, 9 


Produza um intervalo de confiança, explicando cada estimador usado, para: 


a. o total de moradores de cada estrato; 


b. o total de moradores da região. 


4.17 Será colhida uma amostra estratificada de uma população. O custo direto 
será da forma C = SL Nnpch. E a estimativa das quantidades relevantes para 


resolver problema são: 


h Wah Sh ch 
1 0,4 10 4 
2 0,6 20 9 
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Considere os fp 's iguais a zero. 


a. Quais os valores de n1/n e n2/n que minimizam o custo direto para um 


dado valor de Var[y.s]? 


b. Quais os valores de ny e no quando Varl[y.,] = 1? 


4.18 Planejou-se uma amostra estratificada para estimar a porcentagem das famílias 
tendo conta em caderneta de poupança e o valor médio aplicado por família. 
De uma pesquisa passada, têm-se estimativas das porcentagens P, e dos des- 


vios padrões Sp da quantidade investida, conforme descrito na tabela abaixo. 


h W Ph Sh 
1 06 020 9 
2 0,3 0,40 18 
3 0,1 0,60 52 


Calcule o menor n e os respectivos np's que satisfazem: 


a. A porcentagem de famílias deve ser estimada com erro padrão (EP) igual 


a 2 e o valor médio aplicado com EP = 50; 


b. A porcentagem deverá ser estimada com EP = 1,5 e o valor médio com 
EP = 50. 


4.19 As fazendas produtoras de leite numa certa região geográfica foram agrupa- 
das em 4 categorias (estratos), dependendo da sua área e do fato de se concen- 
trarem em produzir exclusivamente leite ou não. Uma pesquisa para estimar 
o número total de vacas produtoras de leite na região usou uma amostra de 28 
fazendas, alocando-se a cada categoria um número de fazendas proporcional 
ao total de fazendas nessa categoria. Os números de fazendas em cada estrato, 
as quantidades de vacas nas fazendas selecionadas e algumas estatísticas estão 


na tabela abaixo. 


h Np N° de vacas 

61, 47, 44, 70, 28, 39, 

51, 52, 101, 49, 54, 71 

2 37 160, 148, 89, 139, 142, 93 
50 26,21, 19, 34, 28, 15, 20, 24 
11 17, 11 


1 72 
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a. Estime o total de vacas produtoras de leite na região, produzindo um 


intervalo de confiança de 90% para o mesmo. 


b. Se os custos de amostragem em cada categoria são os mesmos, qual seria 


a alocação ótima das categorias? Use os resultados obtidos em (a). 


4.20 Uma cadeia de lojas está interessada em estimar dentro das contas a receber, 
a proporção das que dificilmente serão recebidas. Para reduzir o custo da 
amostragem, usou-se AE com cada loja num estrato. Os dados obtidos foram 


os seguintes: 


h Na nn Phn 
1 60 15 0,30 
2 40 10 0,20 
3 100 20 0,40 
4 30 6 0,10 


onde N, é o número de contas a receber, np é o tamanho da amostra e P, é a 
proporção de contas problemáticas. Dê uma estimativa para a proporção total 


de quatro lojas e um intervalo de confiança de 95% para a mesma. 


4.21 O quadro abaixo nos dá os tamanhos e os desvios padrões da variável Y 


dentro de três estratos em que uma população foi dividida. 


h Na Sh 
1 2.500 8 
2 850 24 
3 130 80 


a. Em uma amostragem estratificada de 10% dessa população, qual a par- 


tilha ótima dessa amostra? 


b. Compare a variância da média obtida no plano acima com a da média 


obtida por uma AAS e cujo desvio padrão geral é S = 18. 


4.22 Uma população de N = 1.600 setores censitários (SC) de uma cidade foi 
dividida em 4 estratos. A variável X indica o número de domicílios por SC 
e Y o número de domicílios alugados. A tabela abaixo fornece os principais 


valores. 
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Np nh Th Yn varen] var] 
624 25 225 150 2.527 1.879 
325 25 360 270 4.215 3.626 
345 25 444 298 5.914 5.226 
306 25 212 150 1.623 1.078 


Aa o% N ejl 


a. Calcule a fração amostral fa = nn/Nh,h = 1,2,3,4. Calcule também 
quais seriam os tamanhos das amostras se fosse utilizada a alocação pro- 
porcional. “Em uma amostragem estratificada proporcional, os tamanhos 


das amostras são iguais entre si se...” (complete a frase). 
b. Calcule Zes e EP[Tes]. 
c. Calcule NTes e EP|NTes]. 


4.23 Suponha que no exercício anterior você pode aumentar o tamanho da amos- 
tra no primeiro estrato para nı = 125. 
a. O que vai acontecer com a var[71]? 


b. Calcule a var[Zes]. Embora a amostra tenha duplicado, o lucro na variância 


foi correspondente? 


c. Como ficaria a var[Zes| se o aumento tivesse sido com ny = n2 = ng = 


d. Se você tivesse que aumentar a amostra para 125 em um único estrato, 


qual seria o estrato escolhido? Por quê? 


Teóricos 


4.24 Com dois estratos, um pesquisador considera a alocação uniforme (n1 = na 
b) b) 
por conveniência administrativa, ao invés de usar a alocação ótima. Sejam Vin 


e Voy as variâncias dadas pelas duas alocações. Mostre que 


(4.34) 


Van — Vo (=) 
Va Ar+1/" 


onde r = n1/n2, sendo que nı e nz correspondem à alocação ótima. Encontre 
o valor da expressão (4.34) para os estratos do Exercício 4.3, (a). Assuma 
AASe. 
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4.25 Se a função de custo é da forma 


H 
C=C- o= 5 Chv/Nh, 
h=1 


onde cy e cp são números conhecidos, mostre que para minimizar Ves para C” 


fixo, nn tem que ser proporcional a 


woy?” 
Ch f 


Encontre np para uma amostra de tamanho 1.000, com as seguintes condições 


h We on Ch 
1 04 
2 03 5 2 
3 0,3 


4.26 Mostre que na estimação da proporção com AASc, os resultados correspon- 
dentes ao Teorema 4.4 são 


H 
Ve = Vpr + X Wa (Ph — PP, 
h=1 


IE 8 
Vpr = Vot + E > Wn (VP:n =y PQr) , 
h=1 


onde 


H 
VPQn => Wav PhQn- 
h=1 


4.27 Mostre que o estimador 
H 
es Nh 
(4.35) Um =D, — Th 
h=1 1 


é um estimador viciado de |, a não ser que 


A ER = 
n N 


4.28 Encontre a expressão para n correspondente a (4.31) quando é de interesse 


a estimação do total populacional. 


4.29 Prove o Corolário 4.4. 
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4.30 Verifique a validade das expressões (4.3), utilizando Yp; — u = (Yhj — Un) + 
(un — uu). 


4.31 Mostre que Vpr — Vo é como dado na expressão (4.24). 

4.32 Prove o Teorema 4.5. 

4.33 Prove o Teorema 4.6. 

4.34 Encontre o erro quadrático médio do estimador 7,, dado em (4.35). 


4.35 Considere uma população dividida em H estratos e a notação da Seção 4.1. 
Suponha que de cada estrato uma amostra de tamanho np é selecionada sem 
reposição (AASs). Seja J, a média da amostra selecionada em cada estrato. 


Considere novamente o estimador Yes- 


a. Verifique se Jes é não viciado para p; 


o 


. Encontre Varly.,). 
c. Sugira um estimador não viciado para Varl[y..|. 


d. Discuta a alocação ótima para Jes com AASc. 


4.36 (Otimalidade de Je na AE com reposição.) Considere a classe dos estima- 


dores lineares de p, 
H nn 


Test DD lhiYhi, 


h=1 i=1 
com relação á AE, onde sp = {1,... nh}, h= 1,...,H. 
a. Mostre que o estimador YJes¢ é não viciado para u, se e somente se, 
uses 
D n= N 
1€Sh 
b. Mostre que 
H Nh Ny 
ER 2 2 
Varese] = 5 Sh p lhi — 2) : 
h=1 i=1 
c. Conclua que Jes é o estimador ótimo na classe dos estimadores lineares 
não viciados Y.sp- 


d. Refaça (a)-(c) para o caso sem reposição. 
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4.37 Considere uma população dividida em H grupos (estratos). Suponha que o 
custo por observação seja constante. O objetivo é estimar o total populacional 
TE ES so Yp; utilizando o estimador total estratificado 


H 
Tes = 5 Nhan, 
h=1 


onde y, é a média no estrato h. Encontre a expressão para a alocação ótima 
(nn ótimo) sendo n fixo. Para a alocação ótima, encontre a correspondente 
Varl[Tes] = Vot. Para o caso em que N e N, são grandes (N = N-—-1, NM > 


Np — 1), encontre uma expressão para Vpr — Vot. 


4.38 Suponha uma estratificação onde H = 2, e dentro de cada estrato foram 
escolhidas amostras AASc. Escreva a fórmula para o EPA nesta situação e 
analise a situação em que ele é menor ou maior que 1. Estude também o caso 


sem reposição. 


4.39 Estude com detalhes a alocação ótima para o caso do plano AE sem re- 


posição. Reformule e prove o Teorema 4.3 e os Corolários 4.4 e 4.5. 
4.40 Reformule o Teorema 4.4 para o caso da AE sem reposição. 


4.41 Considere uma população dividida em H estratos de tamanhos NM,..., Ng. 


Do estrato h uma amostra AASs de tamanho np é selecionada, h = 1,..., H. 


a. Encontre 
H Ny 
2 
BS ES 
h=1 “P iesp 
onde s, denota a amostra selecionada no estrato h = 1,..., H. 
. ~ . 2 
b. Encontre um estimador não viesado para u“ usando a amostragem estra- 


tificada acima. 
c. Mostre que 


N-n 1 
n(N — 1) No 


h=1 


Nh E ” 
ieS nh Y Y; = Yes T var [Yes] 


iESh 


é um estimador não viesado para 
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4.42 Queremos planejar uma amostra para estimar a proporção P de moradores 
de uma região que tomaram conhecimento de um anúncio informando sobre 
um novo serviço oferecido pelo governo aos contribuintes. A população foi 
dividida em H estratos; o custo de obtenção da resposta em cada estrato é cp; 
dentro de cada estrato será usada AASc e o pesquisador poderá dispor de C 


reais para as entrevistas (C = SL nach). 


a. Que estimador pes de P você usaria ? 


b. Qual deve ser a alocação ótima, n1, n2,..., NH, que minimizará a variância 
de pes, dentro do custo C? Dê as respostas em função das proporções Ph 
de cada estrato e dos custos cp. Derive as fórmulas partindo da desi- 
gualdade de Cauchy-Schwarz, (4.11). Considere os Np's suficientemente 
grandes, de modo que (Np — 1)/Nh ~ 1 e 1/N, =0. 


c. Com os resultados obtidos em (b), qual seria a expressão de Var[pes|? 


d. Dificilmente conhecemos a priori as variâncias dentro de cada estrato. 
Pelo fato de estarmos trabalhando com proporções, podemos substituir a 
variância de cada estrato pelo máximo valor possível 1/4, por quê? Nesse 
caso, como ficariam os np's e a Varlpes|? (Faça também cy = cte, para 
todo h.) 


e. Se em vez da alocação ótima, usássemos a alocação proporcional, como 


ficaria a Varl[pes]? 


f. Compare os resultados obtidos em (c) e em (e) supondo que cp = cte. 


Interprete o resultado. 


4.43 Derive as fórmulas do estimador e respectiva variância para estimador da 
proporção em um plano amostral estratificado quando dentro de cada estrato 
o sorteio foi: (a) AASc e (b) AASs. 
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Capítulo 5 
Estimadores do tipo razão 


Neste capítulo serão consideradas situações em que ao elemento i da população 
finita U tem-se associado o par (X;,Y;), i = 1,...,N. A variável X é introduzida no 
problema para melhorar a previsão de quantidades (parâmetros) como a média ou 
o total populacional. Na teoria de regressão esta variável é usualmente conhecida 
como variável auxiliar ou preditora e é em geral controlada pelo experimentador. 
Assume-se que as quantidades X;, i = 1,...,N, são conhecidas. O exemplo a seguir 
ilustra uma situação típica onde a inferência é facilitada pela utilização de uma 


variável auxiliar X. 


Exemplo 5.1 Suponha que seja de interesse estimar a quantidade de açúcar que 
pode ser extraída de um caminhão carregado de laranjas. As unidades populacionais 
são laranjas. Seja então Y; a quantidade de açúcar extraída da laranja i, i = 1,...,N. 
Tem-se interesse na estimação de Ty = so Yi, a quantidade total de açúcar no 
carregamento. O estimador natural seria o estimador expansão, Ty = Ty = Ny. 
Mas tal estimador não pode ser utilizado, pois não se conhece o número de laranjas 
no caminhão. Por outro lado, sabe-se que o peso da laranja i, X;, é fortemente 
correlacionado com Y;, i = 1,...,N. Pode-se então definir a razão, quantidade 


média de açúcar por unidade de peso 
(5.1) R= s 


de onde tira-se que 


Y 
ty = Rrx = ry, 
HX 


onde 7x = DA X; é o peso total do carregamento. Com uma amostra de n laranjas, 
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encontra-se os estimadores T e J, e conhecendo-se o peso total produz-se o estimador 


a y 
5.2 , 
(5.2) Ty = TX 


que é usualmente conhecido por estimador razão do total populacional. Por seu 


lado, y é a quantidade média de açúcar na amostra s. As quantidades Ty e 


que é a média de X (peso médio) nas unidades observadas, são facilmente obtidas 


neste exemplo. 


Existem situações em que a própria razão R, dada em (5.1), é a quantidade 
de interesse. Tais situações ocorrem, por exemplo, em casos onde é de interesse 
a comparação de determinadas quantidades em períodos sucessivos. Pode-se estar 
interessado, por exemplo, na razão das vendas de automóveis entre dois anos suces- 
sivos, ou seja, o atual e o ano passado. Também é usada quando o parâmetro é um 
índice, quociente entre duas variáveis, por exemplo, a lucratividade média do setor 
bancário. O planejamento amostral utilizado é a AASc, embora outros planos, como 


a AASs, poderiam também ser utilizados. 


5.1 Estimação da razão, do total e da média populacio- 
nal com AAS 


Para utilizar uma variável auxiliar X na estimação de quantidades como a razão R, 


o total Try ou a média uy utilizamos os seguintes estimadores do tipo razão 


îy = Tr = Rix=r7x 


Jr = Rux = rpx, 
respectivamente, onde T e y são obtidas através de algum plano amostral. Na maioria 


dos casos será usada a AASc. 


Exemplo 5.2 Considere a população U = (1,2,3) considerada nos Exemplos 2.1 


e 2.10. Suponha que seja de interesse estimar a renda bruta média up usando 
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como variável auxiliar o número de trabalhadores T; por domicílio. Seleciona-se 
uma amostra de tamanho n = 2 da população de acordo com a AASc. Portanto, de 
acordo com o Exemplo 2.6, a probabilidade de seleção de qualquer amostra em Sə é 
P(s) = 1/9. Como ur = 2, calculando fp = ur(f/T) para cada uma das 9 possíveis 


amostras, tem-se na Tabela 5.1 os valores das estimativas f, te fp. 


Tabela 5.1: Distribuições amostrais de f, te fp na AASc 


s: 11 12 13 21 22 23 31 32 33 
F: 12 2 15 DE 30 %4 15 2% 18 

E 1 2 15 2 3 25 15 25 2 
fe 24 21 20 21 20 19,2 20 19,2 18 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 


A partir da Tabela 5.1, encontra-se a média e a variância de fp e f, com relação à 


AASc, que são dadas por 


E|F|=20, Var [F] =28 


E [Fal] = 90,27, Var [Fr = 2,52, 


respectivamente. Note que fp é bem mais eficiente que f, pois, Var [7] = 28 é bem 


maior que EQM | fp| S 2,59. Observe que fp é viesado. 
R R 


Em geral, as distribuições exatas dos estimadores r, Tr e Yp são bastante 
difíceis de serem obtidas, pois o denominador destes estimadores também é uma 
variável aleatória. Como consequência os estimadores são viciados (o vício diminui 
à medida em que a amostra aumenta) e tem distribuição bastante assimétrica em pe- 
quenas amostras. Para amostras grandes, a distribuição aproxima-se da distribuição 
normal (ver o Capítulo 10). 

Para utilizar estimadores do tipo razão, é necessário observar duas variáveis 
X e Y que sejam aproximadamente proporcionais, ou seja, positivamente correla- 
cionadas. A média ux (ou o total Tx) também precisa ser conhecida exatamente. 
Note que no Exemplo 5.2, X e Y são positivamente correlacionados. Como será 
visto adiante, o fato de Ypg ser mais eficiente que Y está diretamente relacionado com 
o grau de associação (correlação) entre X e Y. A seguir são apresentadas algumas 


propriedades do estimador razão. 
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Teorema 5.1 Para um plano amostral com Ely] = uy e Elx] = ux tem-se para n 


suficientemente grande que 


(5.3) Elr|= R, 

(5.4) E|TpR] = Ty 

e 

(5.5) Elyrl = py, 

onde, como antes, “=” significa “aproximadamente igual a”. 


Prova. O desvio r — R pode ser escrito da seguinte maneira: 


y 
(5.6) r = 


Porém, 1/7 pode ser expandido em séries de Taylor do seguinte modo 


DN as 1 = 1 =" (1 | rx) 
x ux+HT— ux ux (1+5) ux ! 


HX 


1 = = 2 
Aa 4 (7 ax) no 
Ux HX HUX 


v-Rz (y- RT) Œ- ux) 
Hx H% 


de modo que 


(5.7) r- R= 


Usando apenas a aproximação de primeira ordem, tem-se que 


=0, 


Er- n) = p [E] -=R 


HX HX 
de onde (5.3) segue. Note que (5.4) e (5.5) seguem diretamente de (5.6). 


Do Teorema 5.1, conclui-se então que o estimador razão é aproximadamente 
não viciado quando o tamanho da amostra é grande. Por outro lado, para amostras 
pequenas ou moderadas, ele pode apresentar um viés de magnitude razoável. Uma 


expressão aproximada para o viés é apresentada a seguir. 


Corolário 5.1 Para o plano AAS (AASc ou AASs) temos 


CV [y] ) 
CvVjz j` 


Bir] ~ R CV] fı “pt 
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Prova. Considerando o segundo termo em (5.7), tem-se que 


a (ot 2 


EEN a E nai 
HX 


Hx 
= = {R Varlz] — Covfz, y]) 


-R Var[zT] 


= plz, y] PI DPly] 


Hã Hã 
-= ROVE- on Elcvy 
HX 
= RCV?[z]- olz, 7|CV [z]CV [gR 
(5.8) = RCV?E] fı “PT ra } 


onde CV [g] = DP|y]/uy, CV |z] = DP[z|/ux, são os coeficientes de variação 


das médias amostrais de y e 7, 


te Covlz,7] 
"LU DPEDP5 
com 

o2 o2 

DPW =4\/ Æ, DP =\, 
n n 
1 N 
Cov|z, y| = AN (Yi — uy), 


o que demonstra o corolário. 


Para um melhor entendimento deste resultado, e do que segue, verifique o 
Exercício 5.9. 


Quando o plano amostral adotado é AAS, tem-se que 


(9— RT) — ux)| _ cv[r] 
(5.9) E | A | = R CV?°[X] fı — p[X,Y] cv pi } ; 
onde 
av= =; avy 
HX HY 


N E Ea 
olx, Y] = y (Xi pot uy) . 


i=l 
Note que pļz, y] = p[X,Y]. 
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O viés dado em (5.9) pode também ser escrito como (veja o Exercício 5.11) 
1 2 
(5.10) E[r- R] = = {Rox -— IX, Ylovox) l 
HX 


Expressões aproximadas para os vícios dos estimadores yp e TR podem ser 
obtidas a partir de (5.10) (veja o Exercício 5.12). Observe que para obter viés 
pequeno é necessário que 

pi] = 
ou seja, quanto menor for a relação entre as variáveis, menor variabilidade deve ter 
a variável auxiliar X em relação a Y. 

A seguir tem-se expressões aproximadas para as variâncias dos estimadores do 
tipo razão definidos acima. Note que o lado direito da expressão (5.9), ou (5.10), 
é uma expressão de ordem n”! (= 1/n) para o vício de r. Isto significa que o lado 


direito vai a zero quando n — œo. 


Teorema 5.2 Sen é suficientemente grande, tem-se para a AASc que 


N 2 2: 
1 Y; — RX; 1 
(5.11) Var|r] = — yí i N i) =- CR 
NUX = Hyn 
Y; — RX; 
(5.12) VarlTa] = -5 «i ) py 
Hx i=1 N 
s 2 
1 (Yi — RX;) o? 
(5.13) Varlyp] = 5 = 
na N n 
onde 
2 R 2 
ok ==) (Y; -— RXij) 
Na 


Prova. Usando a aproximação de primeira ordem de (5.7) tem-se que 
Vart] = EQME = E [(r— R)’ 


1 2 1 —2 
(5.14) x — E |(g- RT| = = Eld], 
Ux | | UX g 
onde d = Ses Di/n é a média amostral das variáveis D; = Y; — RX;, i = 


1,...,N. Note que a população dos d;'s, é tal que 
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Com relação à AASc, tem-se do Teorema 3.3 que 


2 
= o 
5.15 Var |d| = Æ. 
(5.15) ar |d] = = 
Mas, 
N N 
1 1 
(5.16) oh = OR = ya VRX) = 0}. 
1=1 1=1 


Portanto, (5.11) segue de (5.14), (5.15) e (5.16). Por outro lado, (5.12) e (5.13) 
seguem de (5.11) e de (5.7) 


5.2 Estimação da variância populacional 


A partir do Teorema 5.2, conclui-se que estimativas para a variância dos estimadores 


r, Tr e Yp são obtidas considerando-se uma estimativa para a quantidade 


N 
(5.17) oh = n 3 (Yi - RX). 


Uma estimativa razoável para oh e comumente empregada na literatura é 


1 


E 2 — 
(5.18) pa 


Y M-rx. 
tes 

Note também que quando N é desconhecido, não se pode calcular ux. Mas 
em tais situações, substitui-se ux por T. Tais estimativas são em geral viciadas, 
mas o vício diminui à medida em que n aumenta. Conforme discutido em Cochran 
(1977), os estimadores das variâncias decorrentes de tais substituições são em geral 
consistentes, isto é, vão se aproximando das respectivas quantidades populacionais 
quando N e n são grandes. Uma outra possibilidade para calcular estimativas da 
variância de estimadores do tipo razão é através da utilização do método bootstrap 


(ou reamostragem), como considerado em Bussab e Morettin (2004, Seção 11.9). 


5.3 Comparação entre os estimadores razão e expansão 


A seguir, apresenta-se um resultado para que o estimador razão seja mais preciso 
que o estimador expansão. Como veremos, a condição básica é que o coeficiente de 


correlação entre X e Y e o tamanho da amostra sejam de magnitude razoável. 
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Teorema 5.3 Sen é suficientemente grande, o planejamento adotado é AASc e 


oxiux _ CVIX] 


X,Y = 
HI 2oy /uy  2CV[Y] 


então, 


Varl[Tr] < Varj|T]. 


Prova. Do Teorema 5.2, vem 


2 N 
E 
VarlTR] = x (Y; — RX;)? 
nux N i=1 
v l 
= FOAN uy) — R(Xi- ux)} 


- DAEN- e 


N 
(5.19) — [0% + Rok — 2Ro|X,Y]oxoy }. 


Por outro lado, como visto no Corolário 3.1, 


N2 
(5.20) Var|T] = 0% 


Então, de (5.19) e (5.20), temos que 
Var[Tr] < Var|T], 


se e somente se 


o2 + R2o% —2Rp|X,Y]oxoy < 02, 


ou, 
2Ro|X,Y]oxoy > Roh, 


desde que R > 0, de onde segue o resultado desejado. 


— ux}? — RY X 


— ux)(Yi — m) 


Note que CV|X] = ox/ux e CV[Y] = oy/uy são os coeficientes de variação 


das variáveis X e Y. Para ganhos maiores de Jg com relação a y, CV[X]/CV[Y] 
deve estar entre 0,5 e 1,3 e p[X,Y] deve ser maior que 0,6 (Kish, 1965). Portanto, 


se a variável X for melhor comportada que a variável Y basta uma baixa correlação 


entre as variáveis para que se tenha lucro. 
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5.4 Normalidade assintótica e intervalos de confiança 


Conforme verificaremos no Capítulo 10, para n e N suficientemente grandes, tem-se 


em relação à AASc que 


(5.21) ERR NO): 


vVar [yr 


O mesmo vale para os estimadores r e Tp. 
Substituindo S$, por sua estimativa s% considerada em (5.18), tem-se que um 


intervalo de confiança para uy com coeficiente de confiança y = 1 — a é dado por 


Sh Sh 
(5.22) Tr- zal] Tr + zaf E). 


O intervalo (5.22) pode ser justificado de maneira análoga ao intervalo obtido 


na Seção 3.2.4. Intervalos para ry e R podem ser obtidos de maneira análoga (veja 


o Exercício 5.13). 


5.5 Determinação do tamanho da amostra 
Utilizando a aproximação normal (5.21), encontra-se n de tal forma que 
(5.23) Pira- urie Bjei=a 


Procedendo como na Seção 3.2.5, tem-se que (5.23) estará verificada quando 


(5.24) varie (2) Ly: 


Q 


Temos portanto de (5.13) e (5.24) que (5.23) estará verificada quando 


2 
ER 


(5.25) "= 


Para que a expressão (5.25) seja utilizada na prática, são necessárias estima- 
tivas para oR. Tais estimativas podem ser obtidas através de amostras pilotos ou 
através de pesquisas realizadas anteriormente sobre a quantidade de interesse. Veja 
discussão na Seção 3.2.5. Pede-se ao leitor derivar as expressões correspondentes 


para o caso sem reposição. 
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5.6 Estimação do total e da média populacional com AE 


Quando a população está estratificada, uma saída é considerar estimadores razão do 
tipo estratificado. Conforme considerado no Capítulo 4, supõe-se que a população 
esteja dividida em H estratos e sejam Yp, Th € Txh as médias amostrais correspon- 
dentes às variáveis Y e X e o total da variável X, respectivamente, no estrato h. No 


caso da média populacional uy, pode-se considerar o seguinte estimador 


H = H 

S Yh E 

Tres = > Wi=uxn= > WD 
pero th RE 


Como um estimador do total ry pode-se considerar então 


H 


Tres = TRes = 5 NhY Rh 
h=1 


Os estimadores acima são usualmente denominados estimadores do tipo razão estra- 


tificados. Tem-se então o seguinte 


Teorema 5.4 Se as amostras são obtidas independentemente em cada estrato, de 
acordo com a AASc e se o tamanho da amostra é suficientemente grande em cada 
estrato, tem-se que 
H w2 
Var Wre] & 5 A (ot + Rjo%n — 2RhoxyhOyhOxh) 
h=1 


H o2 
DU 
h=1 h 


Prova. Como as amostras são obtidas independentemente dentro de cada estrato, 


(5.26) 


então 
H H 
Var Ures] = Var > Wii = X WiVar Up]. 
h=1 h=1 
Do Teorema 5.2, e para np suficientemente grande, com AASc em cada estrato 


vem: 
Te 
j=1 


1 
SF (ota + Rio% — 2RhPxYhOyhOxh) ; 
Nh 


que substituído na expressão acima prova o teorema. 
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A variância do estimador Tres pode ser obtida diretamente a partir do resul- 
tado (5.26). 

Estimadores para a variância no teorema acima são obtidos substituindo-se 
o2, Rh, Pxyh € o%p por seus estimadores correspondentes. 

Como, com AASc, 


H 
o 
Var[U res] = 5 wi E, 


onde 


okn = OYn + R}oXn — 2Rrpn(X, X)oyho xn, 


tem-se, de acordo com o Teorema 4.3, para o tamanho da amostra n fixado e para 
um custo linear, que a alocação ótima consiste em tomar no estrato h uma amostra 
de tamanho 


N 
(5.27) add hoRh/N/Ch 


n H , 
Sm Nhorh/ Ch 


Tem-se então que dispor de uma estimativa piloto de Gs em cada estrato para que 


2 PRP: à 


(5.27) seja operacionável. 


Em muitas populações tem-se que 


ORh X VHXh, 


ou seja, oc, é aproximadamente proporcional à média uxp, obtendo a aloção ótima 
Ja, Rh P , 


na xX Navuxn/VChoh =1,..., H. 


Em outras situações pode-se ter ainda 


ORh X UXh; 


com 
nn X Nhtixn/VCh,h = heeg H. 


Exemplo 5.3 Considere uma companhia que dispõe de duas indústrias em locais 
diferentes. O objetivo principal da pesquisa é avaliar se houve variação no tempo 
médio gasto por empregados no último ano em relação ao anterior com visitas ao 
médico. A população base é formada pelos empregados das duas indústrias, sendo 
que cada uma será considerada um estrato. De cada um dos estratos, uma amostra 


é observada usando a AASc e observa-se: 
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e Ypi, O número de horas gastas com visitas ao médico pelo empregado à da 


indústria h, no ano corrente; 


e Xni, O número de horas gastas com visitas ao médico pelo empregado i da 


indústria h, no ano anterior. 


Os resultados obtidos foram: 


h Np nh n Ën TXh Shn 
1 1.000 10 18,7 17,8 16.300 3,47 
2 1.500 10 46 78 12800 9,72 


Como N = 2.500, calcula-se 


o, _ — 100018,716.300 , 1.500 4,6 12.800, gy 
YRes = 2500 17,8 1.000 ' 2.5007,8 1.500 °” 


e também 


2 2 
Em) 3,47 (55) 9,72 ~ 0,4544. 


2.500 10 ` 10 


Conclui-se este capítulo lembrando que a inclusão de uma variável auxiliar X 
correlacionada com Y (quanto maior a correlação melhor) produz estimadores do 
tipo razão, que são em geral mais eficientes que os estimadores 7 e T. 

Conforme verificado em Cochran (1977), e Rodrigues e Bolfarine (1984), quando 


a relação linear entre X e Y é razoavelmente descrita pelo modelo linear 
Yi = Xi + ei, 


i = 1,..., N, então Jp (Tr) é o “melhor”, de menor variância, estimador de uy 


i 
(Ty), dentre todos os estimadores lineares não viciados. 


Exercícios 


5.1 Considere a população U do Exemplo 5.2. Queremos estimar R = uy/ux. 
Considere os estimadores 

y Ê 1 Y; 

—, e Rg=>53 =. 

UX n > Xi 

Encontre as distribuições de Ri, i = 1,2,3, seus vícios e EQM, para AASc e 


AASs. Qual dos estimadores você prefere? 
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5.2 Pretende-se estimar o número de árvores mortas de determinada espécie em 
uma reserva florestal. A reserva é dividida em 200 áreas de 1,5 hectares. O 
número de árvores mortas é avaliada por fotografia aérea (X) nas 200 áreas 
apresentando uma contagem total de aproximadamente 15.600 árvores mortas 
da espécie. Em 10 das 200 áreas, o número de árvores mortas além da ava- 
liação por fotografia aérea é também avaliada por contagem terrestre (Y). Os 


resultados são apresentados na tabela abaixo. 


Área X; Y 
1 12 18 
2 30 42 
3 24 24 
4 24 36 
5 18 24 
6 30 36 
7 12 14 
8 6 10 
9 36 48 

10 42 -54 


a. Encontre, usando amostragem aleatória simples com reposição (AASc) 
uma estimativa para o número de árvores mortas e também uma estima- 


tiva para a sua variância. 


b. Usando a expressão (5.10), encontre uma expressão para o vício do número 


médio de árvores mortas. 


c. Recalcule as estimativas sem usar a variável auxiliar X e compare os 


resultados obtidos. 


d. Refaça os itens anteriores considerando agora amostragem aleatória sim- 


ples sem reposição (AASs). 


5.3 Considere os dados da tabela abaixo como sendo uma população dividida em 


dois estratos. 
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Estrato 1 Estrato 2 


2 0 10 7 
5 3 18 15 
9 7 21 10 
15 10 25 16 


Para uma amostra estratificada AASs de tamanho np = 2 de cada estrato, 
compare os erros quadráticos médios dos estimadores razão estratificado e 


combinado do total da população. 


5.4 Considere os dados da tabela abaixo. 


N,  Uxh Hyh Op, Oxyh Oh 
53,80 69,48 5.186 6.462 8.699 
118 31,07 43,64 2.363 3.100 4.614 
91 56,97 66,39 4.877 4817 7.311 


ww N ejl 
Aa 
N 


Considerando n = 100, encontre a alocação ótima para Y pes € calcule Var [Y pes] 


nos casos: 


a. np X Npoyn; 


b. np X Nhy/UXh; 


C. Np X Naxh- 
5.5 Considere a população U do Exemplo 5.2. Considere os estimadores 
Jı = iux, a= ux e J= Rx, 


onde R;, i = 1,2, 3 são como definidos no Exercício 5.1. Encontre a distribuição 


e o EQM de Ņ;, i = 1,2,3. Qual dos estimadores você prefere? 


5.6 Considere os dados do Exemplo 5.2 e AASs. 
a. Usando (5.13), encontre um valor aproximado para Var [|p] e compare 
com o valor exato 0,56. 


b. Encontre a distribuição do estimador s%, dado em (5.18). Encontre E [s3] 


e compare com S3. 
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5.7 Uma rede de lojas de eletrodomésticos quer estimar o número de televisores 
coloridos a serem vendidos no ano, baseando-se nas vendas do primeiro tri- 
mestre. Para isso, decidiu dividir suas lojas em dois estratos: um com as lojas 
antigas, onde se conhecem as vendas do ano anterior, e outro com as lojas 
novas. De cada estrato sortearam-se (sem reposição) 6 lojas e foram avaliadas 
as vendas do primeiro trimestre. O primeiro estrato é formado por 36 lojas 
enquanto que o segundo é formado por 12 lojas. No primeiro estrato, o total de 


vendas do ano anterior foi de 3.400 unidades. Os resultados são dados abaixo. 


Lojas antigas 
Loja 1 2 3 4 5 6 
Vendas no 1° trimestre 15 19 40 25 15 28 
Total do ano anterior 55 72 150 102 62 98 


Lojas novas 
Loja 1 2 3 4 5 6 
Vendas no 1° trimestre 12 15 18 16 10 12 


a. Dê um intervalo de confiança para a estimativa do total de vendas anuais. 


Justifique o estimador usado. 


b. Critique o plano amostral utilizado. 


5.8 Considere os dados da Tabela 2.8. Selecione uma AASs de tamanho n = 10 e 
calcule uma estimativa para Var[y]. Calcule também Yp e uma estimativa para 
Var [Jg]. Encontre uma outra estimativa para a Var [Yp] usando o método 


bootstrap (veja Bussab e Morettin, 2004). Compare os resultados. 
Teóricos 
5.9 Verifique a validade das expressões (5.8) e (5.9). 


5.10 Verifique com AASs que 


1= 


N 
Couto.) = nr DD = ms — gr) 


= 


e que p(z,7) = p(X,Y), como definidos na Seção 5.1. Como fica o caso com 
AASc? 
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5.11 Verifique a validade da expressão (5.10). 


5.12 Encontre expressões aproximadas (de ordem 1/n) para os vícios dos estima- 


dores Yg e Tr. 


5.13 Derive intervalos de confiança aproximados para Ty e R utilizando as apro- 


ximações normais correspondentes. 


5.14 Considere a estratificação estudada na Seção 5.6. O estimador razão combi- 


nado do total populacional é dado por 


TYes 
Tre = T. 
Re Txes X, 
onde 
H H 
TYes = 5 Nhan e Txes = >, NhTh. 
h=1 h=1 


Encontre, com relação a AASs, Var [Tre). 


5.15 Defina o estimador razão combinado para a média populacional. Encontre 


a sua variância para AASs. 


5.16 Discuta a alocação ótima para o caso do estimador razão combinado, quando 


se usa AASs em cada estrato. 


5.17 Considere uma população U, onde ao elemento à está associado o par (Xj;, Y;), 
à =1,...,N. Estamos interessados em estimar a razão R = uy /ux, utilizando 
AAS (AASc ou AASs). Defina 


Y; 
Ri; = —,i=1...,N 
i 
Seja também 
1 e its 
T= Doe un=R=5D Ri 
ES 1=1 


a. Mostre (ou justifique) que 


ER] = ur = E[r]. 
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b. Mostre (ou justifique, usando algum resultado conhecido) que 


E -FARA z)| = TA R(X- ux), 
iEs i=1 
e que 
1 = (LDO Peg 
— I R(X -2) = — g -r3) 


c. Mostre que 
1A 
N > R(X: — ux) = ux (R -— E[R:]) = ux (R - Efr) 
i=1 


e conclua que 


1 A 
Ef] - R = -—— Y R:(Xi — nx). 
[r] Nyx 2x (Xi — ux) 

d. Use (b) e (c) para mostrar que um estimador não viciado de R é dado 


por 


5.18 Mostre que o viés do estimador r de R, B[r], é igual a 


plr, z|DP|z|DPĪT] 
Efz) ? 


Btr] = 
e que o viés relativo satisfaz 


Bir] < ovi. 


(5.28) S 


Sugestão: Use a expressão Cov|r, z] = Elrz| — E[r] E[z]. Da expressão (5.28), 
nota-se que quanto maior for o tamanho da amostra e/ou bem comportada for 


a variável X, menor será o viés. Com relação à AASs, temos que 


Bir) [0-A præ) 
DPlr|] 7 n ux 
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Capítulo 6 
Estimadores do tipo regressão 


Como visto no capítulo anterior, para X e Y obedecendo uma relação linear passando 
pela origem, estimadores do tipo razão seriam mais adequados do que os estimadores 
simples. Por outro lado, estudando-se a relação entre X e Y pode-se concluir que 
embora linear, ela não passa pela origem. Isto sugere um estimador baseado na 
regressão de Y em X, e não na razão de duas variáveis. 

Como no capítulo anterior, a cada à € U tem-se associado o par (X;, Y;), 
i= 1,..., N, obedecendo uma relação linear de Y; em X; não passando pela origem, 
ou seja, 

Yi =a + DAE 


onde e; indica um desvio em torno da reta, i = 1,...,N. Para uma amostra s de 
tamanho n, produzindo médias amostrais y e 7, o estimador regressão da média 
populacional é dado por 


Y Reg =y+b(ux — 2), 


onde b é um valor (estimativa) que representa o impacto (8) em Y provocado pela 
variação de uma unidade na variável X. Note que se b > 0 e Z é pequeno com 
relação a ux, então, devido a linearidade entre X e Y, a diferença entre y e Yreg 
também é pequena. Observe que o estimador Ypeg faz uma “correção” em 7, isto é, 
adiciona a J uma quantidade proporcional a ux — Z, ou seja, b(ux — T). 

Pode-se então considerar como estimador do total populacional, Ty, o estima- 
dor 


TReg = TReg = NU co 


que será referido como estimador regressão do total populacional. Na seção se- 


guinte, considerar-se-á propriedades como média e variância dos estimadores do 
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tipo regressão considerados acima. 


6.1 Estimação do total e da média populacional com 


AAS 


Nesta seção estudam-se propriedades como média e variância dos estimadores re- 
gressão definidos na seção anterior. Considere inicialmente que b é um valor co- 
nhecido b = bo, fixo. Então, o estimador razão da média populacional uy é dado 
por 
(6.1) YReg =Ņ7 + bo (ux Ei T) í 
Para o total populacional, o estimador regressão fica sendo 

TReg = NY Rreg- 


Assim, tem-se o 


Teorema 6.1 Seja Yreg definido em (6.1). Então para o plano AAS temos que 


Treg é um estimador não viesado de uy, isto é, 
E BA = py. 
Prova. Com bo fixo, tem-se que 
E ly+bo(ux — 7)] = uy + bo(ux — ux) = uy, 
de onde segue o resultado. 


Teorema 6.2 Com relação à AASc, tem-se que 


Var [Treg] = OR bo(X; — ux) DAM 


1 
= (o? — 2bọo xy + bão) 
Prova. Defina 
D; = Y; — bo(X; — ux), 


i = 1,...,N. Tem-se então que 


upn=D=Y = uy. 
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Seja d = Ses Di/n a média de uma amostra de tamanho n da população dos 


D's. De acordo com o Teorema 3.3, deduz-se que 


2 
Var la] =, 
n 
onde 
q 3 
ob = a bo(X; — ux) — uyy, 
1=1 
fe 5 
= sa ty) — bo(Xi — ux)} 
1=1 
o y 2 [12 2 
= gD (0%) = 2bo(Xi = ux) (Yi — uy) +8: — puxo)? | 
1=1 
= o? — 2boo xy + bo. 
Note que 


d = Y Reg» 


de onde segue o resultado. 


Corolário 6.1 Um estimador não viciado para Vreg = Var A com bo fixado é 


dado por 


Preg = var [Breg] = T ťa 


iEs 
== 1 2 22 


Prova. De acordo com o Corolário 3.2, tem-se que um estimador não viciado de 
Vp = Var E (dado no Teorema 6.2) é dado por 


onde 


sb 
de onde prova-se o corolário. 


O resultado a seguir está relacionado com uma escolha conveniente de bo. 
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Teorema 6.3 O valor de bo que minimiza Var BA é dado por 


= DM uy Xi —ux) _ oxy 


sa = D(X: — ux)? 0% 
Além disso, para by acima, 
= o 2 
(6.3) Vmin Bres] = Ž (1 - 2[x,7]). 
Prova. Seja bo = Bo + c, onde c é um número real qualquer. Tem-se então para 
este bo que 
Var A = Z fo? 2(Bo + c)oxy + (Bo + Po) 


(6.4) Ee (2 — dr) + db 
n o} 


que é mínima quando c = 0. Tomando-se c = 0 em (6.4) obtemos (6.3), pois, 


como visto no capítulo anterior, p[X,Y| = oxy/oxoy. 


O Teorema 6.3 fornece o valor ótimo para bo, ou seja, Bo, dado em (6.2). 
Mas, este valor não pode ser obtido na prática, pois seria preciso observar toda a 


população. Por outro lado, o Teorema 6.3 sugere um estimador razoável para bo, ou 


seja, 
(6.5) E Xics Yi — p(X -7) _ SxY 
DeX B 
Como estimador de Vreg, pode-se então considerar a quantidade 
Co Vas= id -2Boxr + 4) = Epp) 
n n 


onde |X, Y] = sxy /(sxsy). 


Exemplo 6.1 Considere a população U do Exemplo 5.2. Para esta população, 
ur = 2, ur = 20, X$ FT; = 138, $3 F? = 1.368, Di T2 = 14. Tem-se então 
que Ce 

EN FT, -NTF 18 


Bo E 
Di T? -NT 2 


=). 


Também, com by = Bo = 9, oz = 56, o2, = 2/3 e opr = 6, tem-se para n = 2 que 


Var A = - G — 2b00 Fr + bão?) =, 
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Calculando 
Tra = f T Bo(ur = t), 


para cada uma das 9 possíveis amostras, de tamanho n = 2, tem-se na Tabela 6.1 a 


distribuição de f peg- 


Tabela 6.1: Distribuição amostral de FT Reg na AASc 
11 12 13 21 22 23 31 32 33 
12 21 15 21 30 2 15 24 18 
1 2 1,5 2 3 25 15 25 2 
freg: 21,0 21,0 19,5 21,0 21,0 19,5 19,5 19,5 18,0 
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 


+ la 


A partir da distribuição da Tabela 6.1 pode-se mostrar, com respeito à AASc, que 


E [F reo] = 20, 


ou seja, como verificado no Teorema 6.1, Í Reg é não viciado para up com by = Bo 
(bo fixado), e 


Var [F reg] = E [Freg] — E? [Freg] = 401 - 20 =1, 


já calculado acima. Note também que o estimador regressão com bọ = Bo é mais 
eficiente que o estimador razão. Tal resultado vale em geral, como será visto a seguir. 
Por outro lado, quando considera-se o estimador regressão com Bo no lugar de bo, 
a distribuição de Y reg apresenta uma variância superior à encontrada acima (veja o 


Exercício 6.1). 


6.2 Comparação entre os estimadores regressão e razão 


O resultado a seguir mostra que, com relação à AASc, o estimador regressão com 


bo = Bo é em geral melhor que o estimador razão e portanto, em geral melhor que 


yJ. 


Teorema 6.4 Para bo = Bo, dado no Teorema 6.3, tem-se com relação à AASc, 


que 


i. Var BA < Var[y], 
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ii. Var BA < Var [gp]. 


Prova. Como 


e pelo Teorema 6.3, 


Var BA = A (1 = px, YJ) , 


o resultado (i) segue, pois, 0 < p2[X,Y] <1. 


Por outro lado, como, para n grande, 


(o? —2Rp|X, Y]oxoy + Rok) : 


SIm 


Varlyal = 
tem-se que 
= -= 2 2 Pa, 
Varlyr] — Var[U reg] (p [X,Y]oy — 2Rp|X,Y|oxoy + R 0%) 


(olX, YJ]oy = Rox) > 0, 


SIHS3S IH 


de onde (ii) segue. 


6.3 Normalidade assintótica e intervalos de confiança 


Para ne N suficientemente grandes, tem-se que 


YReg THY a 


(6.7) & N(0,1). 


Var BA 


O mesmo vale para o estimador do total populacional Ty, Treg. Para maiores 
detalhes sobre a convergência em (6.7) veja o Capítulo 10. 

Substituindo Vreg = Var BA por sua estimativa considerada em (6.6), tem- 
se que um intervalo de confiança para uy com coeficiente de confiança y = 1 — a é 


dado por 
(6.8) (Drs — Za Vreg; Y Reg + Za V Pres) . 


O intervalo (6.8) pode ser justificado de maneira análoga ao intervalo obtido em 
(3.17). 


6.4 Determinação do tamanho da amostra 151 


6.4 Determinação do tamanho da amostra 


Utilizando a aproximação normal (6.7), pode-se encontrar n de tal forma que 


(6.9) P (Ures — ny! < B) ~l-a. 
Procedendo como na Seção 5.5, temos que (6.9) estará verificada quando 
2 
oj 
6.10 ne. 
Feu (B72) 
onde 
ob = o? -—?2boxy + bioz 


oy (1 z @Ix,Y]) , 


no caso particular em que bo = Bo. 

Em problemas práticos, a quantidade o? precisa ser estimada. Para isto é 
preciso dispor de uma amostra piloto ou de pesquisas amostrais realizadas anteri- 
ormente na população de interesse. A partir desta informação estimativas para o3 


podem ser obtidas e valores aproximados para n seriam obtidos a partir de (6.10). 


6.5 Estimação da média populacional com AE 


No caso em que a população está estratificada, pode-se também considerar estima- 
dores do tipo regressão estratificados. A notação considerada é a mesma do Capítulo 


4 e da Seção 5.6. O estimador regressão dentro do estrato h é dado por 


YRegh = Yn + bon (uxh — Th), 


onde bon é o valor que representa o coeficiente angular da reta de regressão entre X 
e Y no estrato h. Então, o estimador regressão separado é definido por 


H 


YReges = 5 WhY Regh- 
h=1 


O resultado a seguir é uma consequência direta dos Teoremas 6.1 e 6.2 (veja 


o Exercício 6.21). 


Teorema 6.5 O estimador Yreges É não viciado para uy com 


H 2 


W, 
(6.11) Var [W reges! = PA {oin — 2bonoxyn + bon en) 
h=1 
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O valor de bp que minimíza a variância em (6.11) é dado por (veja o Exercício 


6.6) 

OXYh 
(6.12) bon = Bon = 5 

Xh 
h=1,...,H. Neste caso, pode-se mostrar que 

H 2 
E Wi 2 2 

(6.13) Var [Dreges| E 2 n, YP (1 = Prl X, Y]) , 


sendo esta última igualdade válida quando bop = Bon, onde 


arise PE eds 
OxhOYnh 


Sendo bon fixo (ou bon = Bon), pode-se construir estimadores não viciados da 
variância em (6.11), utilizando o Corolário 6.1 (veja o Exercício 6.26). 
Segue então do Teorema 4.3 para um custo linear e para n fixo, que a alocação 


ótima consiste em tomar no estrato h uma amostra de tamanho 


NhoDn/V'Ch 


np Sn H , 
Sm NhoDh/ Ch 
onde 
2 2 2 2 
ODh = OYh — 2boha xyn + DhTXh h = 1,...,H. 
Exercícios 


6.1 Refaça o Exemplo 6.1, considerando a estimativa Bo definida em (6.5) no 


lugar de Bo. 


6.2 Para a população do Exercício 6.1, encontre a distribuição do estimador Vreg 


definido no Corolário 6.1, com bo = Bo. 


6.3 Um fazendeiro fez uma avaliação grosseira da produção X;, em kilos, de cada 
um de seus N = 200 pessegueiros. A estimativa do peso total foi 5.800 kilos. 
Tomou-se uma amostra casual (A ASs) de 10 pessegueiros, colheu-se os pêssegos 


e pesou-se a produção Y;. Os resultados estão na tabela abaixo. 


Árvore: 1 2 3 4 5 6 7 8 9 10 
Xi: 30 24 26 30 34 24 22 29 38 29 
Y: 30 21 25 29 34 22 19 28 35 26 
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6.4 


6.5 


6.6 


6.7 


6.8 


a. Considere dois estimadores diferentes para a produção total de pêssegos 
(em kg). Obtenha as estimativas correspondentes e os respectivos inter- 


valos de confiaça. 


b. Estime a variância usando o método bootstrap e recalcule o intervalo de 


confiança. Use a = 0,05. 


c. Considere o estimador 
ĉn = N {97 + (ux - 7)} = N {ux + G- 7)}, 


onde x e y são médias amostrais e ux a média populacional. Obtenha 
uma expressão geral para a variância de 7p, estime-a e compare com as 


encontradas em (a). 


Refaça o Exercício 6.2, considerando agora o estimador Vreg definido em (6.6), 


isto é, considerando By desconhecido e estimando-o por Bo. 


Considere os dados do Exercício 5.3. Encontre as distribuições de Ypeges € 
de Yrege (definido no Exercício 6.16) com os correspondentes bop e boc ótimos 
para AASc em cada estrato com ny = n2 = 2. Encontre as variâncias dos 


estimadores. 


Refaça o Exercício 6.5 para o caso em que bon € boc são substituídos por suas 


estimativas convenientes. 


Utilizando a AAS selecionada no Exercício 5.16, calcule y re; € uma estimativa 


para a sua variância. Como se comparam os resultados com Yp? 


Para verificar a influência de uma nova marca de ração, um criador de galinhas 
pesou 10 de seus frangos ao comprá-los (X;) e depois de 30 dias (Y;). Os 


resultados estão na tabela abaixo. 


Frango: 1 2 3 4 5 6 7 8 9 10 
Xi: 1,50 1,60 1,45 1,40 1,40 1,55 1,60 1,45 1,55 1,50 
Y: 214 216 210 1,95 2,05 210 2,26 200 220 2,04 


O peso médio de todos os frangos na hora da compra era de 1,54. 


a. Qual o estimador regressão mais indicado ? Justifique. 


b. E qual seria a estimativa? 
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c. E o erro padrão? 


6.9 Usando o estimador simples T = Nx, encontre a estimativa e o erro padrão 
correspondente. Compare as variâncias Var[T reg] e Var[T]. Quais as suas 


conclusões? 


6.10 Queremos estimar a quantidade de açúcar que podemos extrair de um ca- 
minhão carregado de laranjas. Sorteia-se 10 laranjas, pesa-se cada uma (X;), 
extrai-se o suco e dosa-se a quantidade de açúcar em cada uma (Y;). Os resul- 


tados estão na tabela abaixo, em kg. 


Laranja X; Y; 
1 0,2000 0,0105 


2 0,2400 0,0150 
3 0,2150 0,0125 
4 0,2100 0,0110 
5 0,2500 0,0155 
6 0,2300 0,0135 
7 0,1950 0,0095 
8 0,2050 0,0105 
9 0,2100 0,0115 
10 0,2200 0,0125 


O peso total das laranjas, obtido pela diferença do caminhão cheio para o 
caminhão vazio é de 900 kg. Qual seria o total esperado de açúcar que esta 


carga de laranjas produziria? Para facilitar as contas use: 
XOX: =2,175, XY; = 0,122, 
iEs iEs 
XO X? = 0,475875, 5 XY = 0,0268475 e 53 Y? = 0,001524. 
iEs i€s 1€S 
6.11 Uma fábrica de suco de laranja quer estimar quanto um caminhão com 1.000 


kg de laranja produzirá de suco natural. Para isso, selecionaram-se 10 laranjas 


e com os seguintes resultados: 


Laranja: 1 2 3 4 5 6 7 8 9 10 
Peso (g): 150 130 140 120 160 160 130 170 140 150 
Suco (mL): 60 55 50 40 TO 60 45 65 55 65 
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Dê um intervalo de confiança para o total de suco de laranja que será obtido 


do caminhão em questão. 


6.12 Um investigador muito bem treinado faz uma estimativa visual das áreas cul- 
tivadas de arroz em todas as 200 fazendas de um município, e avalia em 1.200 
unidades o total de área plantada. Levantaram-se também a área realmente 


cultivada de uma amostra de 10 fazendas, cujos dados são os seguintes: 


Fazenda: 1 2 3 4 5 6 7 8 9 10 
Área estimada: 48 58 60 5,9 7,6 67 47 58 44 5,2 
Área real: 47 54 55 64 71 71 48 62 43 50 


Para estimar a área total cultivada 7: 


a. Que estimador você usaria e por quê? Utilize uma justificativa teórica. 


b. Produza um intervalo de confiança para 7. 


6.13 Existem N = 75.000 fazendas numa região. Tem-se informação sobre a área 
geográfica de cada fazenda nessa região, sendo de ux = 31 alqueires a área 
média das fazendas. Toma-se uma AASs de n = 2.000 fazendas dessa região 
e registra-se a quantidade Y; de reses em cada fazenda. Os seguintes dados 


foram obtidos a partir da amostra: 
> X; = 62.756, X Y = 25.650, 
i€s 1€S 
XC X? = 2.937.801, 53 X:Y; = 1.146.301 e 5. Y = 596.235. 
i€s iEs 1€S 
Pede-se: 
a. O número médio de reses por fazenda. 
b. Sua variância. 


c. O coeficiente de variação. 


6.14 Um engenheiro florestal quer estimar a altura média das árvores de uma 
floresta. Ela é dividida em áreas de 100 x 100 mĉ, e é sorteada uma amostra 
de 10 áreas. Todas as árvores da área sorteada são medidas, com os seguintes 


resultados: 
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Área: 1 2 3 4 5 6 7 8 9 10 
N° de árvores: 42 51 49 55 47 58 43 59 48 41 
Altura média: 8,89 876 9,04 849 8,58 910 831 8,58 8,73 8,86 


a. Estime a altura média das árvores usando mais de um estimador. 
b. Dê as variâncias respectivas dos estimadores usados. 


c. Compare as propriedades dos estimadores. Neste caso, qual o mais reco- 
mendado? 


6.15 Um grupo de 100 coelhos está sendo usado em um estudo sobre nutrição. 
Registrou-se o peso inicial de cada coelho, obtendo 1,55 kg como peso médio. 


Após dois meses o experimentador escolheu 10 coelhos e pesou-os, obtendo os 
resultados abaixo. 


Coelho: 1 2 3 4 5 6 7 8 9 10 
Peso inicial: 1,40 1,40 1,45 1,45 1,50 1,50 1,55 1,55 1,60 1,60 
Peso final: 1,95 205 5,00 5,10 5,04 214 210 220 214 2,26 


Estime o peso médio atual dos 100 animais e dê um intervalo de confiança 


para este parâmetro. Justifique o uso do estimador empregado. 


Teóricos 


6.16 Considere a estratificação estudada na Seção 6.5. O estimador regressão 


combinado da média populacional e com bop = boc fixo é definido por 


YRege = Yes + boc(ux A Tes), 


onde Fes =D, WhIp € Zes = Dil, WnZh. Mostre que TRegc é não viciado 
para uy e encontre Vrege = Var [Trege] > com relação à AASs. 


6.17 Mostre que Var [Dreges|> dada em (6.11), é mínima quando 
OXYh 
Xh 


6.18 Verifique a validade da expressão (6.13). 


6.19 Discuta a alocação ótima associada com o estimador regressão separado. 
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6.20 Derive, com detalhes, o intervalo (6.8) e a expressão (6.10). 
6.21 Prove o Teorema 6.5. 


6.22 Encontre o valor de boce = Boc que minimiza a Var [Brege]; calculada no 


Exercício 6.16. Como fica a variância para este boe? 


6.23 Encontre um estimador não viciado para Var[y regc]; calculada no Exercício 


6.16. Como fica este estimador para o boe ótimo derivado no Exercício 6.22? 
6.24 Discuta a alocação ótima para o estimador regressão combinado. 


6.25 Sejam Vmin [7 Rets e Vain [rege] as variâncias com os correspondentes Bon 


e Boc ótimos. Mostre que 


Vmin ZA — Vmin [T reges! = > ah (Bon E Boc)? , 


h=1 
onde E 
B.- > n-1 ah Bon 
SEH 
J h= 0h 
com > 
WwW 
a = 
Ah — — o% h = 1,...,H. 

Nh 


Qual a sua conclusão? 


6.26 Derive estimadores não viciados para Vreges dados por (6.11) e (6.13) para 
bon geral e bon = Bon fixados. 


6.27 O estimador diferença da média populacional uy é definido por 
YD=9+(ux— TT). 


a. Verifique se Yp é não viciado para jy. 
b. Encontre a variância de Jp. 


c. Proponha um estimador não viciado para a variância em (b). 


6.28 Considere os estimadores regressão separado e combinado do total popula- 


cional. 
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a. Proponha um estimador não viciado para a variância do estimador re- 


gressão combinado 
TRege = TRege = NYJes E N boc (ux = Tés) . 


Como fica seu estimador quando boe = Boc? 
b. Considere os estimadores regressão combinado e separados do total 7. 


Mostre que 


H 
W 
Var [Trege] — Var [Treges] = N? X a Th (Boc — Boc)? 
h=1 


6.29 Formule as versões correspondentes dos Teoremas 6.2-6.5, para o caso da 


AASs, com as respectivas demonstrações. 


6.30 Qual é o estimador regressão de mínimos quadrados em que a variabilidade 


de Y depende da variável X de acordo com as seguintes relações: 
a. Var[Y|z;] = x;0º; 


b. DP[Y |x] = xio; 


Use a teoria de Modelos Lineares. 


Capítulo 7 


Amostragem por conglomerados 


em um estágio 


Os planos amostrais vistos até agora sorteavam unidades elementares diretamente da 
população ou de estratos desta mesma população. Quando os sistemas de referência 
não são adequados e o custo de atualizá-los é muito elevado, ou ainda quando a mo- 
vimentação para identificar as unidades elementares no campo são caras e consomem 
muito tempo, a tarefa amostral pode ser facilitada se forem selecionados grupos de 
unidades elementares, os chamados conglomerados. Por exemplo, uma amostra de 
eleitores pode ser obtida pelo sorteio de um número de domicílios, trabalhadores 
por uma amostra de empresas ou estudantes por uma amostra de escolas ou classes. 
O que caracteriza bem o planejamento amostral de conglomerados é que a unidade 
amostral contém mais de um elemento populacional. 

Suponha que o objetivo de uma pesquisa seja determinar a renda média fa- 
miliar de moradores de uma grande cidade. Dificilmente dispõe-se de uma lista de 
famílias, a unidade elementar da população de interesse. Pode-se usar como sistema 
de referência a lista de setores censitários (SC) do IBGE. Um SC é uma área bem 
definida com cerca de 300 domicílios e são usados para fazer o recenseamento a cada 
10 anos. Pode-se começar sorteando um certo número de SC, de cada SC sorteado 
poderiam ser sorteados quarteirões e dos quarteirões sorteados domicílios. Este é 
um plano amostral de conglomerados em três estágios. Neste capítulo será abordado 
o planejamento amostral de conglomerados em um único estágio e no Capítulo 8 em 
dois estágios. 

Uma das inconveniências para o uso da amostragem de conglomerados prende- 


se ao fato de que as unidades, dentro de um mesmo conglomerado, tendem a ter 
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valores parecidos em relação às variáveis que estão sendo pesquisadas, e isso torna 
estes planos menos eficientes. Comparando amostragem de elementos com a de 
conglomerados de mesmo tamanho, esta última tende a: (i) ter custo por elemento 


menor; (ii) ter maior variância e (iii) maiores problemas para análises estatísticas. 


Exemplo 7.1 Considere uma população agrupada em 3 conglomerados do seguinte 


modo: 


U = {(1), (2,3,4), (5, 6)} = {C1, C2, C3}, 


onde 


Ci = {1}, Cy = {2,3,4} e C3 = {5,6}. 


O plano amostral adotado manda sortear dois conglomerados, sem reposição, e en- 
trevistar todos os elementos do conglomerado. Desse modo, a construção do espaço 
amostral correspondente pode ser feita, levando em conta apenas os conglomerados, 


e depois abrir para os elementos. Assim, 
Se(U) = {C1C2, C103, C2C1, C203, C3C1, C3C2} 


e em seguida 


S(U) = {1234, 156, 2341 , 23456, 561, 56234}. 


Observe que, neste caso, o tamanho da amostra também é uma variável aleatória, 


assumindo os valores 3, 4 e 5. Considere agora associado, o vetor de dados 
D = (12,7,9, 14,8, 10), 


com 
34 
u= 10, S? =6,8 e aa 

Definida a estatística Y, média da amostra, tem-se a seguinte distribuição amostral 


de y: 
g(sı) = 10,5, g(s2) = 10, g(s3) = 10,5, g(s4) = 9,6, Y(s5)=10 e y(se) = 9,6. 


Para ilustrar o efeito do tipo de conglomeração sobre a eficiência do estimador 
observe o Exemplo 7.2. Este tópico será abordado novamente na Seção 7.4, onde 


será tratado o conceito de correlação intraclasse. 
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Exemplo 7.2 Volte-se a população U = {1,2, 3,4,5,6} com os dados do Exemplo 


7.1 e considere as três possíveis divisões de conglomerados: 


Dı =(7,8) m=7,5 8,105 
Ua = {(2,5), (3,6), (1,4)} > Də = (9,10) m2=9,5 S4=0,5 
Ds = (12,14) u3 =13,0 S4=2,0 


Dı = (7,10) m= 85 92=4,5 
Up = {(2,6), (1,5), 3,4} > Do = (12,8) u2 = 10,0 S5 = 8,0 
D; = (9,14) use 15 S?= 12,5 


Dı = (7,14) m =10,5 9? = 24,5 
Uc = {(2,4), (1,5), (3,6)} — Də = (12,8) u2=10,0 92=8,0 
D = (9,10) u3=9,5 S2=0,5 


O plano amostral manda sortear um conglomerado de acordo com AAS, e as duas 
unidades do conglomerado são observadas. Em cada caso pode-se calcular a respec- 
tiva distribuição amostral e seus parâmetros. Assim, temos a Tabela 7.1, onde para 
cada uma das populações a distribuição da média amostral, sua média e variância 


são calculadas. 


Tabela 7.1: Distribuição amostral de y na AC 


Divisão A 
J: 75 95 13,0 EAlg] = 10 
16 
P(y): 1/3 1/3 1/8 Varal] = 5 
Divisão B 
J: 85 100 115 Epl] = 10 
4,5 
P(g): 1/3 1/3 1/3 Varsi] = -> 
Divisão C 
7: 9,5 10,0 10,5 Ecl] = 10 
0,5 
P(g): 1/3 1/3 1/8 Varcll = 


Observe que em todos os casos y é não viesado, mas que para a situação C o estima- 
dor é mais eficiente (tem menor variância). Observe que neste caso os conglomerados 


são os mais heterogêneos, que pode ser medido pela variância média dos conglomera- 
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dos, (24,5 + 8,0 + 0,5)/3 = 11,0. As outras duas populações tem variâncias médias 


iguais a 1,0 e 8,33, respectivamente. 


Daqui conclui-se que quanto mais parecidos forem os elementos dentro do 
conglomerado, menos eficiente é o procedimento. Tal resultado é esperado, pois 
para o conglomerado ser um “bom” representante do universo ele deve ser uma 
“micro representação” do mesmo, ou seja, ter todo tipo de participante e não do 


mesmo tipo. É o oposto do exigido para construção de estratos. (Pense!) 


7.1 Notação e relações úteis 


A notação usada para conglomerados é muito semelhante àquela adotada para estra- 
tificação, embora sejam procedimentos bem distintos. A população U de elementos 
estará agrupada em A conglomerados, desse modo, será necessário dois índices (a, 1) 
para indicar os elementos da população: o primeiro refere-se ao conglomerado e o 


segundo ao elemento, dentro do conglomerado. Assim, 


uU = {1,2,..., N} 
= {(1,1),..., (1, B1), ,(A,1),..., (4, BA)) 
= {01,C2,..., CA}, 
onde 
Ca = {(a,1),...,(@,i),..., (@, Ba) 


A Tabela 7.2 representa a disposição dos dados de uma variável Y pelos conglome- 


rados. 


Tabela 7.2: População disposta em conglomerados 


Conglomerado Elementos 
1 Ya o Yu © Ha 
a TR O A 
A Ya ce Ya ce YABa 


Utilizando essa notação, pode-se obter as seguintes definições e relações entre 


os parâmetros: 
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1. Tamanhos Ba dos conglomerados, 
A ar 
NS Br AB, 
a=1 
onde B é o tamanho médio dos conglomerados, 


B= 


=| z 


2. Para indicar o total do conglomerado usar-se-á a letra Tą, assim 


Ba 
Ta = 5 Yar 
1=1 


Consequentemente o total populacional será 


A A Ba 
TE a= DA Ya A 
a=1 a=1i=1 
onde 
T 1 A 
na. 
a=1 


é o total médio por conglomerado. 


3. A média por elemento dentro do conglomerado será indicado por Ha ou Ya, 


ou seja, 


= T, 1 
Ha = Ya = 5 =D, Yoi 


Algumas vezes será necessário trabalhar com a média das médias dos conglo- 


merados, que será indicada por 
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Convém observar que 


o Ba 1 ETE 
H = 4) pee ybe (5-1) no 


a=1 a=1 a=1 


e nem sempre o resultado é nulo, ou seja, nem sempre os dois valores são iguais. 


Um caso onde as médias coincidem é o de conglomerados de igual tamanho. 


4. A variância entre elementos dentro do conglomerado a será indicada por 


Y = ha) , 


1 A Ba 
= DP Qua 
a=1 i=1 
1 A Ba 1 A Ba 
2 2 
= 7 Du 2 (Yoi — pa) + DD aen) , 
a=1 i=1 a=1 i=1 
expressão equivalente àquela usada para estratificação, onde: 
o? = variância dentro dos conglomerados + variância entre conglomerados 
2 2 
= Ode T Tec) 
onde 
A B A B A 
1 a 1 Ba & 1 B 
2 2 2 2 
de= E (Yai — Ha) E a (Yai — Ha) Do 
a=1 i=1 a=1 1=1 a=1 
e 


com g2 = Br se (Yai — iae Observe que a expressão Ba/B, que aparece 
em várias expressões, mede o quanto o tamanho de um conglomerado se afasta 
do tamanho padrão médio. Quando os tamanhos de todos os conglomerados 
forem iguais, esse quociente torna-se igual a 1, e as fórmulas ficam bem mais 


simples. Tendo em mente estas últimas observações, pode-se interpretar g 


2 


como uma média das variâncias dos conglomerados enquanto que of. é uma 


variância entre as médias dos conglomerados. 
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Será utilizada também uma medida para indicar a variância entre os totais dos 


conglomerados: 
à E A 1 
CéclT] = A Xe (Ta E T) = 4 5 (Bata — Bu) 
a=1 a=1 
—2 A 2 
B B 2 
= > (nau = Bob 


onde, para manter similaridade com a medida de variação entre conglomerados, 


define-se 


A 2 
1 B 
2 a 
Cect = X l ( z Ma n) e 
ASA NB 
Observe a grande similaridade entre o2. e o2., onde o fator de ponderação, 


Ba/B, aparece fora e dentro do quadrado, respectivamente. 


Outras fórmulas para medir a variabilidade entre conglomerados envolvendo 


as médias dos conglomerados são: 


A 2 
1 Ba 
= 45 (3) Mau? 
e 
Tas 3 
E g 2 (to — Ei) 
a=1 


Em planos AASs, quando houver necessidade, será usada a notação S2, com 


as respectivas mudanças no denominador. 


5. Também serão usadas as seguintes notações para indicar as diversas somas de 


quadrados envolvidas. 


e Soma de Quadrados Total entre os elementos, 


A 
SOIE| = 5 (Yai — U)? = No? = ABo?. 
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e Soma de Quadrados Entre conglomerados, 


A Ba A 
SQU]=5"5 (ga- = Y Balia A = ABe 
ai a=1 


e Soma de Quadrados Entre Totais dos conglomerados, 
A j 5 A B 2 3 5 
SQ[ET] = Ta—7) =B (= ee ) = BÃO 
[Er] 2 ) 2 z He — H t 
Note que são válidas as relações usuais 
SQ[T] = SQ[D] + SQE]. 


6. Quando todos os conglomerados tiverem o mesmo tamanho, isto é, 


Bi=B:=...=B4=B=B, 


indicaremos por B esse valor comum. Nesta situação tem-se que Ba/B =1 e 


1 A B 1 A 
H= Jp > Yi q 2 Ha =R, 


a=1 i=1 
ou seja, a média global coincide com a média das médias dos conglomerados. A 
variância dentro dos conglomerados, simplifica-se como a média das variâncias 


dos conglomerados 
1 A 
2 2 
Ode — A 5 Ox: 
a=1 


As diferentes expressões para variância entre, resumem-se a 


7.2 Plano amostral 


Serão sorteados a < A conglomerados, através de um processo AAS, com reposição 
(AASc). De cada conglomerado serão entrevistados todos os indivíduos. Detalhes 
sobre o plano AAS sem reposição são encontrados nos exercícios. Esse procedimento 
equivale ao procedimento AASc, discutido no Capítulo 3, de onde são sorteados a 


elementos da população representada por 


Uc = {C1, C2, ..., Caz... CA} 
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e o parâmetro populacional D pela matriz 


Di Bora (By tn BA 
D= T1 T2 ... Toi K TA 
p do co Ha cr PA 


ou qualquer outra característica de interesse. Já os dados da amostra serão repre- 


sentados por 


bi bo pecas ba Siar ba 
d= | E ass To. ee TE 
Yı Y2 co Va cr Ya 


Desse modo, todas as propriedades derivadas naquele capítulo são válidas aqui, com 
n = 3 a-1 ba- 

Convém ressaltar que a variável Ta, total observado na a-ésima extração, 
assume os valores 71,72,...,T4. Interpretação idêntica vale para as variáveis ba e 


Ya: 


7.3 Estimadores da média por elemento 


O parâmetro a ser estimado é a média global por elemento 
T T 
N B 
Dependendo da informação adicional disponível pode-se substituir os parâmetros 
acima por estimadores convenientes. 
A primeira delas supõe conhecido o número total N de unidades no universo. 


Desse modo, substitui-se o numerador por um estimador não viesado, assim 


estimador de T AF < 7 
N “AB B 


Yel = 


O segundo estimador é mais indicado quando o total N é desconhecido, e 


cautelosamente substitui 7 e N por estimadores não viesados, obtendo 


estimador de 7 AF 


EE o T 
ez = estimador de N AB B 
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que é um estimador do tipo razão, onde B é o tamanho médio estimado dos conglo- 


merados sorteados, ou seja, estimado por 


REP ee 
a=1 
Finalmente, o terceiro estimador a ser estudado é aquele que ignora o fato 


dos diferentes tamanhos dos conglomerados e propõe a média das médias como 


estimador, isto é, 


Teorema 7.1 Para os estimadores acima valem as seguintes relações: 


o 
E Yei = M, Var [Tea] = À 
: : a. E 
E Yal Z HT B [Te] , EQM [Teo] = Var [Te] = a 
2 = es Oda x 2 
E (Weal =u+(E— 4), EQM [Yes] = a +(m—u) , 


onde Bly.9] denota o vício de Jez- 


Prova. Como já foi mencionado, a AC em um único estágio equivale a uma AAS 
para os valores agregados do conglomerado. Assim, para o primeiro estimador, 


o parâmetro populacional é 
Di (mta Ta sa TA 


com média 7 e variância o2.[7], da qual foi retirada por AASc, amostras cujos 


dados são 
de= essa): 


Pelo Teorema 3.3, tem-se que 
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com o2.l7] = pa — 7)?. Logo, 


2 1 A Ba 2 
com Oec = À Laz (F Ma E u) E 


Para o segundo estimador basta lembrar que o parâmetro populacional é 


D = Ti T2 ... Ta E A TA 
NEBE Bj tel By Gas BA 
e os dados amostrais 
il TT sss Ton eA Th 
bi ba = ba = ba 


e que Jez é um estimador razão. Assim, pelo Exercício 5.12, tem-se que ele é 
viesado e, portanto 
Ege] = u+ Blyco). 


Por outro lado, pelo Teorema 5.2 para AASc (veja o Exercício 7.29) temos que 


N 
1 2 
EQMIr] =V e — Y; — RX;)”. 
QUE = Vart] = 2 X Y- RX) 
Ajustando para o estimador acima, tem-se 
1 A 
EQM Go) = — 35 (Ta - HBa) 
a aAB? a=1 ii j 
E FOR duas 
aA — B Ha H 
a=1 


2 
eq 


dos conglomerados. 


Observe que oé, é uma outra maneira de medir a variabilidade entre as médias 


Finalmente, o terceiro estimador equivale a 
D = (m, H2,- --, Has: HA) 


com média igual a E e variância entre médias definida, como na Seção 7.1, por 


1 A 
-A2 
Tem = F 2 (Ha — A) s 
a=1 
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Na amostra 


d= (Ji U2- ; ‘Yaa Ya). 
Portanto, y,.3 é um estimador não viesado da média de D, isto é, 
Ely] = E 


e variância igual a o2,, dividia por a (AASc), ou seja, 


2 
= fo 
Var[yes] = = 


Usando o fato de que EQM [7.3] = Var [T3] + (7 — u)? o teorema fica demons- 
trado. 


Corolário 7.1 Estimadores para as variâncias do Teorema 7.1 são dados por 


1 g (= o i 
T = = 
var (Ye ala o 1) 2 B Ya Ya j 
1 a a oo det 
var = X = — : 
Vez ala = 1) e ( b (Va Vea) 
a 
varlYeg] = aaa X (Ta — 7 y . 
C: ala = 1) es a C 


Com relação à AASc, o primeiro e o terceiro são não viciados para as respectivas 


variâncias. 


Prova. Do Teorema 3.4, tem-se que 


a—l 


2 


com 7 = BY, é um estimador não viesado de o2.[7]. Como o2, = o2.[7]/B”, 


segue que 


de modo que 


2 p2 2 a 2 
Seel7] _ B E ) 1 (žy 5 ) 
=F -y =e AN = Var yY , 
aB B "ala — 1) > i a(a-1) & \ B79 E 


= a= 


é um estimador não viciado de Var[y.1|. 
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Do Exercício 7.29, tem-se que um estimador da variância do estimador razão 


R= r é dado por 


var[r] = 


E la 


n(n — 1)7 ics 


Adotando a nomenclatura dos conglomerados, tem-se 


varlyo) = a z (Ta — Venda)? 
RR o N aa a 
E a(a — 1) » ( b ) (Da = Dea. 


Para o terceiro estimador, a aplicação direta dos resultados de AASc, Teorema 


3.4, mostra que 
1 a 
2 Evo e AD 
Sem = 5 (Ua S Vcs) 


CR A 


é um estimador não viesado de o2,,. De modo análogo, define-se 


= = VA 
2s 506 a Vc) 


que é estimador de o2.. Como estimador de T2 consideramos 
1 Š fba? 
Djen, a 
eq a) (Ta Vea) 
Já A P 
1 o E 
(7.1) Soat = a—1 5 ( z Ja Ta) 


nem sempre é um estimador não viesado de 02. (veja o Exercício 7.32). 


Nenhum dos três estimadores do Teorema 7.1 é consistentemente melhor que 
os demais, isto é, tem EQM menor em todas as circunstâncias. Jessen (1978) afirma 
que se o coeficiente da regressão de ua em função de Ba for negativo, positivo ou 


nulo, deve-se preferir Ye, Ye2 OU Yeg, respectivamente. 


Corolário 7.2 Quando todos os conglomerados tem o mesmo tamanho B, os três 


estimadores são iguais a 
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com 
o ig 2 
V Ul= Rec = — E g 
arp] =" = 4 du (o — 4) 
a=1 
Um estimador não viciado de Varl7.| é dado (ver Corolário 7.1) por 


2 a 
ii sf E y — y)? 
varid = < a Do 
a=1 
É importante notar também que quando todos os conglomerados tem tama- 


nhos iguais, segue que 


1 a 
2 2 2 = = 2 
Sec Sect Seq Sem X (Ta Je) 
a—l 
a=1 
Corolário 7.3 O estimador 
LB 

2 az 

S = — e: 

ii e Bs 


é não viesado para 04. 


Veja o Exercício 7.33 para a prova dos Corolários 7.2 e 7.3. 
Quando B é desconhecido, substituindo-se por b, o estimador no corolário 


acima passa a ser viesado. Se os tamanhos não variam muito o viés é pequeno. 


7.4 Coeficientes de correlação intraclasse 


Já se discutiu que a eficiência do conglomerado depende do grau de similaridade 
de seus elementos. Desse modo é bastante importante criar medidas que indiquem 
qual o grau de similaridade dos elementos dentro dos conglomerados. Existem várias 
propostas para tais medidas, principalmente quando os conglomerados não são do 
mesmo tamanho. Silva e Moura (1986), em um trabalho interno do IBGE, fizeram 
uma revisão e comparação de algumas dessas medidas. Aqui, com objetivo didático, 
será abordada apenas a mais tradicional delas, muito usada para conglomerados de 
igual tamanho. Para conglomerados desiguais será feita uma extensão conveniente. 

Antes de formular a definição é interessante descrever como é construída a 


medida. 


i. Considere a população dividida em A conglomerados conforme a notação da 
Seção 7.1. 
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ii. Em seguida formam-se todos os pares de unidades distintas possíveis dentro de 
cada conglomerado. Por exemplo, para o a-ésimo conglomerado seria possível 


formar os Ba(Ba — 1) pares de valores da variável Y descritos na Tabela 7.3. 


iii. Desse modo tem-se no total de conglomerados 34, Ba(Ba— 1) pares do tipo 
(Yi, Y3), onde Yf indica os possíveis valores da primeira posição do par e Y3, 


o segundo. 


iv. Calcula-se agora para todos esses Si Ba(Ba — 1) pares o coeficiente de 


correlação de Pearson, isto é, 


Cov[Yi, Y>] 
Pint = SDRAIATA DNNN 
DP[Y/]DP[Y;] 


Tabela 7.3: Pares possíveis dentro do conglomerado a 


Elemento (a,1) (a,2) no (a,i) ne (a, Ba) 
(a, 1) E (Yan, Ya2) TAMA (Yan, Yai) pes (Yai, YaBa) 
(a, 2) (Yaz, Kad) = e (Yaz, Yai) da (Yaz, YaBa) 
(a, i) (Yoi Yaı) (Yai, Ya2) erges ERR eps (Yai YaBa) 

(a, Ba) (YaBa , Yo) (YaBa , Ya) as (YaBa , Yai) an Es 


Existem B2 — Ba = Ba(Ba — 1) pares possíveis. 


Definição 7.1 Ao coeficiente pint chama-se coeficiente de correlação intraclasse, ou 


dentro dos conglomerados. 


Exemplo 7.3 Volte-se ao Exemplo 7.2, onde a população foi dividida em três dife- 
rentes grupos de conglomerados. Na divisão A, tem-se Ua = {(2, 5), (3,6), (1,4)+ = 
{C1, C2, C3} com Da = ((7,8), (9,10), (12,14)t. Dentro do conglomerado Ci só é 
possível formar dois pares distintos de valores (7,8) e (8,7). Estendendo para todos 


os conglomerados, tem-se 


Yi: 7 8 9 10 12 14 
Y3: 8 7 10 9 14 12 


Calculando-se o coeficiente de correlação obtém-se pint S 0,82. Na divisão B, tem-se 
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Yj: 7 10 12 8 9 14 
Y3: 10 7 8 12 14 9 


com pint ¥ —0, 47; e na divisão C', 


Y) 7 14 12 8 9 10 
Y: 14 7 8 12 10 9 


com pint & —0, 94. 


Observe que quanto maior o coeficiente de correlação intraclasse, mais ho- 
mogêneos são os conglomerados e menos eficiente é o uso da AC. Já tinha sido 
observado na distribuição amostral do Exemplo 7.2 que na divisão A a AC era a me- 
nos eficiente e na C tinha-se o procedimento mais eficiente, ou seja, acompanhando 


a ordem decrescente do pint- 


7.4.1 Conglomerados de igual tamanho 


Quando os conglomerados tem o mesmo tamanho as fórmulas simplificam-se bas- 


tante, e pode-se encontrar expressões operacionais bem interessantes. 


Lema 7.1 Para conglomerados de tamanhos iguais a B, tem-se 


A 
a=1 ij) 


Var [4] = Var [Y3] = o°. 


Prova. Usando como referência a Tabela 7.3, pode-se escrever para o a-ésimo con- 
glomerado que a soma das B(B — 1) observações do primeiro elemento do par 
é igual a B — 1 vezes o total do conglomerado, isto é, 


(B — 1)Ta = (B — 1) >» Vis 


i=1 


Somando agora para todos os conglomerados tem-se 


A 
(B-D)S ma = (B-1)r. 
a=1 


Portanto a média dos AB(B — 1) valores do primeiro elemento do par é 


(B — 1)r r 


PO qo” ADO 


h- 
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O mesmo argumento mostra que 
EM] =u 


Para calcular a variância, façamos o cálculo da diferença para um valor i, 
dentro do conglomerado a 
2 
(Yai = u) o 
Da Tabela 7.3, nota-se que essa soma aparece B — 1 vezes, portanto a soma 


total dentro do conglomerado será 


B 
(B-DS (Yai — H}. 


j=1 


& 
II 


Assim, a variância será 


A B 
a=1 i=1 
z 1 A B T j à 
= JB A ai u) =o; 


Finalmente, aplicando a fórmula da covariância tem-se 


A 
Cov [Y], Y3] = 355) EE uo Ya. 
a=1 ij 


Teorema 7.2 Para conglomerados de tamanhos iguais tem-se 


Pint = 2 


Prova. Sendo B o tamanho comum dos conglomerados, pode-se escrever 


B 


1 B B 1 B 1 
bon 5X Yai- Be 5 (2a Bn) = 25 Ca). 


Elevando ambos os lados ao quadrado, 


portanto, 
A 1 


TE E E TE e an 
Ha — H) Sebo (Yai u) + DA (Yai — u) (Yaj — 1). 


a=1 a=] i=1 a=1 ij) 
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Usando os resultados da Seção 7.1 (item 6) e do Lema 7.1, vem 


1 1 
Aoc = pa ABo* + 53 AB(B— 1)Cov [Y;, Y3], 
ou seja, 
Bol. — o? 
Cov[Y], Y3] = = I 


2 2 


Lembrando ainda que o? = o2, + 02., obtém-se 
I yI 2 cj 
Cov [Y1, Y>] Do B ZT 


Dividindo por DP[Y].DP[Y3], que pelo Lema 7.1 é igual a 02, tem-se o teo- 


rema demonstrado. 


2 


Essa expressão é muito útil para interpretar e analisar o efeito da conglo- 


meração sobre os estimadores. Duas situações extremas são: 


i. Suponha o caso de máxima homogeneidade, isto é, dentro dos conglomerados 
todas as observações são iguais entre si, ou seja, A = 0. Logo, o2, = 0e 
a2. = 02, de modo que 


Pint = 1. 


Ou seja, é quando se observa o maior valor de pint- 


ii. Suponha agora que cada conglomerado é uma micro representação do universo. 
Isto pode ser traduzido na suposição de que a variância média seja igual à 
variância global, o2, = o°, o que implica em g2, = 0, logo 

1 
Pint = — 
B-1 


é o menor valor que pode assumir. 


Note que as variâncias entre e dentro podem ser reescritas dos seguintes modos: 


2 


[0] 
(7.2) 02, = {1+ Pm (B - DS 
B-1 
Cie = -g E Pinto. 


Corolário 7.4 Para conglomerados de igual tamanho, tem-se 


o? 


Var EA = {1 T Pint (B z 1)} aB 
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Prova. Este resultado segue diretamente do Corolário 7.2 e de (7.2). 


Corolário 7.5 O efeito do planejamento para conglomerados de igual tamanho é 
dado por 
EPA =1 + pin(B — 1). 


Prova. Basta lembrar que a variância de y, deve ser comparada com a de uma 


AASe, de tamanho n = aB, que é Varaascly] = 02/(aB), logo 


Varac KA 


EPA = 
Varaascly] 


=d Pint(B = 1). 

Assim, a eficiência dependerá do tipo de conglomeração. Usualmente pint é 
positivo, então a conglomeração usualmente leva à perda de eficiência em relação à 
AASe. 


Corolário 7.6 O coeficiente de correlação intraclasse é estimado por 


2 


2 Sd, 
ES Sec T BA 
int = 5 >J ` 
2 2 
Sec + Sde 


Prova. Substituiu-se cada termo do coeficiente de correlação no Teorema 7.2 por 


estimadores não viesados. 


7.4.2 Conglomerados de tamanhos desiguais 


Com o intuito de encontrar fórmulas operacionais boas como àquela apresentada 
no Corolário 7.4, é conveniente redefinir o coeficiente de correlação intraclasse para 
algum estimador especial. Será usado o desenvolvimento para o estimador Yo. 
Observando a expressão do coeficiente de correlação intraclasse do Teorema 7.2 e o 


fato que Var[y.o] = o2 /a, propõe-se 


onde 


2 = 480: 2 
RA = Oog + Ode 


Trabalhando esses resultados, pode-se escrever 


Varga] = {1+ pa (B-1)} 35 
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bem como 


EPA = {1+ p2 (B- ia 


Na maioria das situações práticas, quando os tamanhos não variam muito, 
observa-se que 72/02 = 1, logo 
EPA=1+p2(B-1) 


que permite as mesmas interpretações feitas anteriormente. Para atender outros 


estimadores, pode-se usar definições adequadas em cada situação. 


Exemplo 7.4 Considere a população do Exemplo 7.1, ou seja, 


Uu = ((1), (2,3,4), (5,6), 
D = ((12),(7,9,14),(8,10)), 
onde u = 10,02 = 17/3, T = 31/3. Então, 
ti =12, 42=10, us=9 
Sb o2 = 26/3, qm =l 
B;i=1, B,=83, Bs=2, B=2, 


1/1 3 26 2 14 
2 

=: | 1 RR) 
Tie TERI TETEN 


1f1 
o, = 5 [302-104 


o que confirma a relação o? = o2, + o4.. Pode-se calcular também 
gej = E HG x 12 10) | G x 10 10) + G x 9- 10) } = 14, 
Em E : 19] (12 — 10)? + EE (10 — 10)? + (5) (= 10) = 
Oem = E f(z F | (10 5) 2+ (9- | = = 


Suponha que o plano amostral corresponda ao sorteio de dois conglomerados com 


reposição. Assim, 


14 

Varlyal = z h 
a 2/3 1 
Vara] = =E 


7 
Varlycs] = = 3º 
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Aqui, o estimador do tipo razão Je é o mais indicado. 
O coeficiente de correlação pode ser calculado pela definição, que leva aos 


seguinte valores 


Y: 7 7 9 9 14 14 8&8 10 
Y3: 9 14 14 7 7 9 10 8 


que leva a pint & —0, 477. Por outro lado, usando a definição adaptada temos 


3 3 37 
2 14/3 
2-4 22 
37024 
= = = —0,75 
Pe2 16/3 16 , , 
16/3 1 
Jal = 41 — 2-1 = 
Varal = {1+ -07-1 55 = 5 
pois a = 2. Observe também que o? = m ~ 16 = mà, 


7.5 Estimação de proporções 


Quando a variável de interesse é do tipo dicotômica, isto é, Ya; = 1 se o elemento 
i no conglomerado a possui o atributo de interesse e O em caso contrário, pode-se 
derivar as propriedades das seções anteriores utilizando uma notação especial. Seja 
Ta O número de indivíduos com o atributo no conglomerado a. Então a proporção 


populacional P fica sendo 


A 

A À 

X azi Ba 

novamente uma razão, cujo estimador pode ser equivalente ao Y,2, OU seja, 

a 

— acl Ta 

Poa b 

Poe a 


e de acordo com o Teorema 7.1 sua variância fica sendo 


A 
1 
Varlpe] = o. o (Ta = PBa)’, 
aAB a=1 
estimada por 
1 a 
var[peo] = —s Xo (Ta — peba) . 
a(a — Db q=1 


Quando os conglomerados tem o mesmo tamanho as fórmulas podem ser simplifica- 


das. Veja o Exercício 7.21. 
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7.6 Normalidade assintótica e intervalos de confiança 


No caso em que os conglomerados são de tamanhos iguais, a normalidade assintótica 
de Ją segue diretamente da normalidade assintótica da média amostral na AAS. 


Portanto, para A e a suficientemente grandes, tem-se que 
(7.3) 


Usando o procedimento da Seção 3.2.4, temos que um intervalo de confiança 


para u com coeficiente de confiança y = 1 — a é dado por 


(7.4) (3. = za yvarTd: me + zay/varld) 


onde var[7.) = s2./a é como dado no Corolário 7.2. 

Quando os conglomerados são de tamanhos diferentes, a normalidade as- 
sintótica de Je segue diretamente da normalidade assintótica do estimador razão. 
Veja o Capítulo 10 para uma discussão mais detalhada do problema. Então, para 
a e A suficientemente grandes, tem-se que (7.3) continua valendo. Um intervalo de 
confiança para u com coeficiente de confiança y = 1 — a é ainda dado por (7.4), com 


Jez no lugar de J, e com 
E 1 


2 = aa E ba E J ui SNA 
vare] = — = qn E (E) (Da — Vea)”, 


no lugar de var[y.), conforme visto no Corolário 7.1. 
Intervalos de confiança para o total populacional 7 podem ser obtidos de ma- 
neira similar aos intervalos acima, sendo os conglomerados de mesmo tamanho ou 


não. 
7.7 Determinação do tamanho da amostra 
Com relação à obtenção do tamanho da amostra a de tal forma que 


P(e- u| < B) ~1-a 


esteja satisfeita, podemos novamente utilizar o procedimento da Seção 3.2.5. No 
caso em que os conglomerados são de tamanhos iguais, pode-se mostrar que (veja o 
Exercício 7.31) 


(7.5) q= 
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onde D = B2/z2 e o2. está definido na Seção 7.1, item 6. 

Em geral, o2. é desconhecido e tem que ser estimado a partir de amostras 
pilotos ou a partir de pesquisas amostrais anteriores. O estimador s2, considerado 
no Corolário 7.2 poderia então ser utilizado. De maneira análoga determina-se a 


para o caso em que os conglomerados são de tamanhos diferentes. 


7.8 Amostragem sistemática 


Considere uma população com N elementos, onde N = kn e k é um número inteiro. 
Considere também que a população está ordenada de 1 a N, formando o sistema de 
referências. Uma unidade é então selecionada aleatoriamente (segundo a AAS) entre 
as k primeiras unidades do sistema de referências. As unidades seguintes que farão 
parte da amostra são obtidas a partir da primeira unidade selecionada em intervalos 


de comprimento k. 


Exemplo 7.5 Suponha que para determinada população, N = 1.000 e n = 200. 
Portanto, k = 5. Ou seja, a população está dividida em 200 grupos de 5 unidades 
populacionais onde um elemento será selecionado em cada grupo. Uma unidade é 
selecionada aleatoriamente entre as 5 primeiras unidades. Suponha que a unidade 3 
tenha sido selecionada. Então em cada um dos 199 grupos restantes, será selecionada 
sempre a terceira unidade, completando assim a amostra sistemática de 200 unidades 


populacionais. 


A vantagem principal da amostragem sistemática (AS) é a facilidade de 
sua execução. Também, é bem menos sujeita a erros do entrevistador que os outros 
esquemas de amostragem vistos até agora. Por outro lado, quanto a sua precisão, 
existem situações em que ela é mais precisa que a AAS. Mas na maioria dos casos 
a sua eficiência é próxima da AAS, principalmente quando o sistema de referências 
esta numa “ordem aleatória”. Em outros casos, quando existem tendências do tipo 
linear ou existem periodicidades na população, sua precisão pode ser bem diferente 
do planejamento AAS. A AS pode ser bastante prejudicada por ciclos presentes na 
população. 

Um grande problema na utilização do sorteio sistemático é a estimação da 
variância do estimador obtido. No caso em que a população está em ordem aleatória, 
não existem muitos problemas em se estimar a variância do estimador obtido através 


da amostra sistemática pela estimativa da variância do estimador y da AAS, que 
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é dado no Corolário 3.5, pois nestes casos, AAS e AS apresentam resultados muito 
similares. Por outro lado, nos casos em que a população apresenta tendências ou peri- 
odicidades, ao utilizar tal procedimento, pode-se super (ou sub) estimar a variância 
do estimador obtido a partir da AS. Alguns casos especiais são considerados nos 
exercícios. Na Seção 7.8.1 mostra-se que a AS pode ser considerada como um caso 
especial da AC. Outros estimadores para a variância V;. podem ser encontrados em 
Cochran (1977). 


7.8.1 Relações com a AC 


Considerando a população ordenada de 1 a N, pode-se escrever 
D — (Yi, aaa es Y ktis areia Yk, Ea , Yin—1)k+1> ssa s Ynk), 


que pode também ser representado através de uma matriz, onde na linha a tem-se a 
a-ésima amostra sistemática, enquanto que na coluna à tem-se a i-ésima zona. Tal 


representação é considerada na Tabela 7.4. 


Tabela 7.4: Amostras sistemáticas 


Zonas 
Amostras | 1 2 o n Médias 
1 Yi Yk e Yn-i)k+1 ua 
2 Yo Yk+2 ce Yin-1)k+2 Ho 
k Yk Yk >> Ynk Hk 
Médias | wi mo e H-n u 


Na primeira linha da Tabela 7.4 tem-se a primeira amostra sistemática com 
média 1; na segunda linha tem-se a segunda amostra sistemática com média u2 e 
assim por diante. A última coluna representa as médias das k amostras sistemáticas. 
Cada uma dessas amostras sistemáticas pode também ser vista como um conglome- 
rado, onde os conglomerados são de tamanhos iguais a n. Portanto, a seleção de 
uma amostra sistemática pode ser vista como a seleção de uma amostra por conglo- 
merados onde o número de conglomerados é 4 = k, e destes k conglomerados a = 1 
é selecionado para ser observado. 


O estimador obtido a partir da amostra sistemática será definido por 


Ysis = Ma; 
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onde Ha é a média da amostra sistemática (ou do conglomerado) selecionada(o). 
Temos portanto que a distribuição de y.;, é dada pela Tabela 7.5. Desde que qualquer 
uma das k amostras sistemáticas tem probabilidade igual a 1/k, pois o primeiro 
elemento a fazer parte da amostra é selecionado aleatoriamente entre os primeiros k 


elementos do sistema de referências. Da Tabela 7.5, tem-se que 
Elm sis] =H; 


ou seja, Ys;s é um estimador não viciado de u e, também, 


k 
(7.6) Ve = Varas] = 55 (ta =u)”. 
a=1 


mm 


Como apenas um conglomerado é selecionado, não é possível obter um estimador 
não viciado de (7.6). Como discutido acima, na maioria dos casos, a variância Vp 


em (7.6) é estimada por 


~ O e. 
(7.7) phism Yeis) > 


onde V, = Var[y] é dada no Corolário 3.5. Tal estimador seria adequado quando 
a amostragem sistemática é aproximadamente equivalente à amostragem aleatória 
simples. Contudo em outras situações, como no caso de populações apresentando 
periodicidades ou tendências do tipo linear (veja os Exercícios 7.12, 7.13, 7.26, 7.27 e 
7.28), as duas amostragem apresentam resultados bastante distintos. Uma possível 
alternativa em tais situações, seria considerar o uso de réplicas (veja o Exercício 
7.34). Um exemplo típico de uma população apresentando periodicidade seria o caso 


das vendas diárias de certo produto (carne, por exemplo) em um supermercado. 


Tabela 7.5: Distribuição de 7 
Ysis: Hı H2 a . Uk 


sis 


Considerando a AS como uma AC, como discutido acima, escreve-se a variância 


V como (veja o Exercício 7.24) 


(7.8) Ve = {1+ emin- 1) Z, 
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onde pint é o coeficiente de correlação dentro das amostras sistemáticas, ou seja, na 


notação da Seção 7.4, 


Cov[Y}, YJ] 
DPI DP 


2 
o? PES Ode 
ec n—1 


o2 É 


Pint = 


onde, como os conglomerados tem tamanhos iguais a B =n, 


k 
1 2 
Te = z 2 (Uta — n) , 
a=1 
e 
1 k 
=i o, 
a=1 
com 
le 2 
cá = E (Yoi — Ha), 


i=1 


com Ya; sendo o valor da característica populacional associada ao elemento da i- 
ésima zona na a-ésima amostra sistemática. Portanto, existindo alguma ordenação 
dos elementos da população, existirá uma a correlação positiva entre unidades da 
mesma amostra sistemática (pint > 0), aumentando a variância Vp com relação a Vs. 


Por outro lado, quando pint < 0, temos que Vp será menor do que Vs. 


Exemplo 7.6 Considere a população onde D = (2,6,10,8,10,12), N = 6 e dividida 


em n = 2 zonas de k = 3 unidades cada. Portanto, formam-se as 3 amostras 
sistemáticas: 
Zonas 
Amostras | 1 2 | Médias 
1 2 8 5 
2 6 10 8 
3 10 12 11 


Portanto a distribuição de Ysis é dada por 


Ja 5 8 U 
P(Ysis): 1/3 1/3 1/3 
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Da distribuição acima temos que 


ElYsis] =8 e 


Var [Tsis] =ô. 


Neste caso, pint = 1/8. Note que como pint > O (veja o Exercício 7.10), Y é mais 


eficiente que Ysis- 


Exemplo 7.7 Considere a população com N = 40 elementos distribuídos em k = 10 


amostras sistemáticas de tamanhos n = 4: 


Zonas 
Amostras | 1 2 3 4 | Médias 
1 0 6 18 26 [125 
2 1 8 19 30 |145 
3 1 9 20 31 | 15,25 
4 2 10 20 31 |15,75 
5 5 13 24 33 | 18,75 
6 4 12 23 32 [17,75 
7 7 15 25 39 | 20,5 
8 7 16 28 37 | 22 
9 8 16 29 38 | 22,75 
10 6 17 27 38 |22 
Médias | 4,1 12,2 23,3 33,1 | 18,175 
Para n = 4, calcula-se (veja o Exercício 7.11) 
2 
v= vapa- (1-a) SÉ 


Temos também que 


1 
Va = Var[Usisl 5 g 2 (Ha 


(12,5 — 18, 175)? + (14,5 — 18, 175)? + 


. + (22 — 18, 175)? 


= 30,7. 


10 


Portanto, para a população acima, conclui-se que Y,;, é mais eficiente que y. Note 


também que a população apresenta uma ligeira tendência linear. Um outro esquema 


amostral que poderia ser utilizado para a obtenção de uma amostra de tamanho n 


desta população seria considerar cada uma das n zonas (colunas) de k elementos 


como um estrato. Selecionamos então de cada estrato um elemento aleatoriamente. 
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O estimador de yu é dado por Jes, o estimador estratificado que foi introduzido no 


Capítulo 4. Pode-se mostrar, usando a tabela acima que (veja o Exercício 7.25) 


1 \ 13,49 
Ja S [1 ? = z 
Var [Jes] ( 5) 4 3,03 


Exercícios 


7.1 Considere a população com N = 6 indivíduos, onde D = (2,6,8,10,10,12). 


bh) 


Considere os conglomerados “Uc” e “Up” abaixo 


Ci E D: — (2), 
Conglomerados “Uc” : 4 C2: Də = (6,8,10), 
C3 : Ds = (10, 12) 


Cı: Dı = (2,6,8), 
Conglomerados “Up” : 4 C2: Də = (10,10), 
C3: Ds = (12). 
Para cada uma das divisões (conglomerados) acima, selecione um conglome- 
rado segundo a AAS. Encontre a distribuição de Ja, sua média e variância. 


Qual das divisões apresenta uma estimativa mais precisa? 


7.2 Uma empresa de táxis possui 175 carros. Uma pesquisa é conduzida para 
se estimar a proporção de pneus em mau estado nos carros da companhia. 
Uma AASc de 25 carros apresenta o seguinte número de pneus em mau estado 
por carro: d = (2,4,0,1,2,0,4,1,3,1,2,0,1,1,2,2,4,1,0,0,3,1,2,2,1). Não 


considere o estepe. Encontre uma estimativa para a precisão de sua estimativa. 


7.3 Suponha que desejamos estimar o número total de quilômetros percorridos 
pelos carros da companhia do Exercício 7.5. Calcule estimativas utilizando os 


estimadores propostos na Seção 7.3. Qual dos dois estimadores é mais preciso? 


7.4 Planejou-se uma pesquisa para determinar a proporção de crianças do sexo 
masculino com idade inferior a 15 anos numa certa cidade. Sugerem-se dois 


procedimentos: 
i. Toma-se uma amostra AASc de n crianças (menores de 15 anos) e conta- 
se o número de meninas e meninos. 


i. Toma-se uma amostra AASc de n famílias e pergunta-se o número de 


meninos e meninas (menores de 15 anos) para cada família. 
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7.5 


7.6 


Encontre as variâncias para as estimativas das proporções obtidas a partir de 
cada um dos planos. Qual dos planos amostrais você preferiria? Justifique. 


Refaça agora considerando AASs. 


Uma companhia que fornece carros a seus vendedores quer uma estimativa do 
número médio de quilômetros percorridos pelos seus carros no ano passado. A 
companhia tem 12 filiais. O número de carros (Ba), a média (ua) e a variância 
(S2) do número de quilômetros percorridos (em milhares), para cada filial, são 


dados por: 


Filial Ba la 2 


1 6 24,32 5,07 
2 2 2706 5,53 
3 11 2760 6,24 
4 28,01 6,59 
5 27,56 6,21 
6 14 2907 6,12 
7 3203 5,97 
8 2841 6,01 
9 28,91 5,74 


10 5 25,55 6,78 
11 12 2858 5,87 
12 6 2727 5,38 


Selecione uma AASc de 4 filiais e estime o número médio de quilômetros per- 
corridos por carro utilizando a informação sobre todos os carros nas filiais 
selecionadas. Encontre a variância de sua estimativa e também uma estima- 
tiva para a variância. Compare a variância de sua estimativa com a variância 


correspondente à utilização de uma AASc de tamanho n = 27. 


Considere uma população com N = 9 elementos divididos em n = 3 zonas 
com k = 3 elementos. Os valores da característica populacional são dados na 


tabela abaixo. 


Zonas 
Amostras [1 2 3. 
1 8 6 10 
2 6 9 12 
3 T 9 5 
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Para estimar a variância V do estimador Y.;,, que corresponde a média da 
amostra sistemática obtida, considere o estimador 

5 82 
Ve = (1 <] o 


onde S2 = 3? é a variância amostral correspondente à amostra sistemática 
observada. 

a. Para a a população acima, verifique se Vp é não viciado para Vg. 

b. Verifique para essa população se vale a fórmula 


p[9]= 252820 — pim), 


onde pint é como definido na Seção 7.8.1. 


c. Mostre que o resultado em (ii) vale em geral. 


7.7 Considere uma população U com N = 12 elementos divididos em A = 3 


conglomerados. Os valores Ya; correspondentes aos 3 conglomerados são: 


a Yai Ba la “O; 
1 0,1 2 05 0,25 
2 1,2,2,3 4 2,0 0,50 
3 3,3,4,4,5,5 6 40 2/3 


a. Encontre o2. 


b. Desta população, dois conglomerados são selecionados com reposição. 
Considere um estimador não viciado para a média populacional e en- 
contre a variância do estimador proposto. Selecionando uma amostra de 


2 conglomerados da tabela, estime a variância. 


c. Encontre pint (exato e aproximado). Usando a amostra dos dois conglo- 


merados selecionados em (b), encontre uma estimativa para pint- 


7.8 Uma população com N = 2.000 elementos foi dividida em A = 200 conglome- 
rados de tamanhos iguais a B = 10 elementos. Desta população uma amostra 
de a = 20 conglomerados é selecionada de acordo com a AASc e todos os 
elementos nos conglomerados selecionados são observados com relação à de- 
terminada característica populacional. O número de indivíduos que possuem 


a característica (Tą), na amostra foi: 
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Conglomerado: 1 2 3 4 5 6 7 8 9 10 
La 5 3 2 9 3 1 6 10 4 4 
Conglomerado: 11 12 13 14 15 16 17 18 19 20 
ias 2 3 6 1 1 7T 0 Too 2 1 


a. Encontre uma estimativa para o número total de indivíduos na população 
que possuem a característica de interesse e uma estimativa para a variância 


da estimativa do total. 


b. Encontre uma estimativa para a proporção de indivíduos na população 
que possuem a característica de interesse e uma estimativa para a variância 


da estimativa da proporção. 


c. Encontre uma estimativa para o coeficiente de correlação intraclasse. 


7.9 A tabela abaixo nos dá os tamanhos dos estratos e os desvios padrões de certa 
característica populacional Y dentro de 3 estratos em que a população original 
de tamanho N = 3.480 foi estratificada. 


Estratos Ba “Sy 


1 2500 8 
2 850 24 
3 130 80 


a. Numa amostragem estratificada de 10% dessa população, qual a partilha 


ótima do tamanho n da amostra? 


b. Compare a variância da média obtida pelo esquema acima com a variância 
da média obtida por AC com o mesmo n obtido em (a), e cujo desvio 


padrão geral é S = 18. 


7.10 Considere novamente o Exemplo 7.6 verifique realmente que Vk = 6 e que 
Pint = 1/8. 


7.11 Considere a população do Exemplo 7.7. Verifique que, conforme dado no 


exemplo, V; S 30,7 e Vk S 11,6. Encontre pint- 


7.12 Refaça o Exemplo 7.7, invertendo a ordem nas zonas 2 e 4, isto é, em cada 
zona, o último elemento passa a ser o primeiro, o penúltimo passa a ser o 


segundo, e assim por diante. 
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7.13 Considere uma população dividida em n zonas de k elementos (k é um inteiro 


par), onde todas as zonas são iguais a 
0,1,0,1,0,1,...,0,1, 


isto é, é uma seqüência alternada de “zeros” e “uns” com k elementos (É “0” e 


eq), Por exemplo, se n = 2 e k = 4, temos 
D = (0,1,0,1,0,1,0,1). 
a. Calcule, no caso geral, a variância da média amostral y obtida a partir 


de uma AAS de tamanho n. 


b. Calcule a variância de Y,;., correspondente à uma amostra sistemática de 


tamanho n. Compare com o item (a). 


c. Como ficam os resultados em (a) e (b) se k = 6 e n = 3? 


7.14 Os dados abaixo indicam o número de besouros por canteiro (cada célula) 


em uma plantação de batata. 


1 2 3 4 5 6 7 8 
1 4 2 4 2 3 4 6 
2 2 0 2 7/4 2/3 
3/16 9 2 8 5 10 8 7 
45 7 714 20 5 9 6 
5/12 5 7 0 4 10 13 5 
6|11 6 17 1 9 9 5 I7 
7/11 10 13 21 10 11 20 
8 3 5 7 1 14 
9 8 0 0 1 1 
10 14 10 7 3 3 I7 8 
11 12 13 16 11 8 9 
12/13 2 10 10 7 8&8 15 28 


a. Sortear uma amostra de 2 quadrados de 2 x 2 e estimar o total de besouros 


existentes na região, bem como o respectivo erro padrão. 


b. Usando os 8 quadrados (1 x 1) encontrados acima, calcule o total de 
besouros existentes na região, supondo que a amostra colhida equivale à 


AAS. Encontre o erro padrão da estimativa. 
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c. Compare os resultados de (a) e (b) e encontre um valor aproximado para 


o coeficiente de correlação intraclasse. 


7.15 As 39.800 fichas de assinantes de um jornal estão catalogadas de acordo com 
os roteiros de entrega diária. Cada roteiro tem suas fichas dispostas segundo 
uma ordem geográfica. O principal objetivo da pesquisa é determinar a porcen- 
tagem de assinantes possuidores do próprio imóvel que habitam atualmente. 
Decidiu-se por uma amostra de 400 assinantes, agrupados em conglomerados 
de 10. Este procedimento irá reduzir o tempo de viagem entre uma unidade 
e outra, já que as unidades são próximas umas das outras. Assim, os 39.800 
assinantes estão dispostos em 3.980 conglomerados de 10 assinantes cada um. 
Nos 40 conglomerados sorteados foram encontrados os seguintes números de 
proprietários: d = (10,8, 6, 5, 9, 8, 8, 5, 9, 9, 9, 10, 4, 3, 1, 2, 3, 4, 0, 6, 3, 
5, 0, 0, 3, 0, 4, 8, 0, 0, 10, 5, 6, 1, 3, 3, 1, 5, 5, 4), com DT, = 185 e 
54 T2 = 1.263. 


7.16 Deseja-se estimar a opinião dos arquitetos, membros do Instituto de Arquite- 
tura (IA), sobre a construção de um aeroporto num local atualmente ocupado 
por uma reserva florestal. Conseguiu-se a lista dos 10.000 membros do IA e 
os nomes estão ordenados segundo a data de admissão ao quadro da entidade. 
Decidiu-se por uma amostra de 500 pessoas e usando o processo de 5 réplicas 


repetidas com sorteio sistemático. Isto é: 


1. dividiu-se a população em 100 zonas contíguas de 100 arquitetos cada; 
2. sortearam-se 5 números aleatórios entre 01 e 00 (por ex., 17, 23, 56, 77, 
81); 
3. tomou-se então a opinião dos arquitetos ocupando as seguintes posições 
na lista: 
e réplica 1: 17, 117, 217,... 
e réplica 2: 23, 123, 223... 
e réplica 3: 56, 156, 256... 
e réplica 4: 77, 177, 277,... 
e réplica 5: 81, 181, 281,...; 
4. o número de pessoas contra o projeto em cada réplica foi, respectivamente, 
70, 60, 50, 80, 65. 
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Obs 


. Por que você acha que foi proposto este esquema amostral ? 


. Usando cada réplica como um conglomerado, estime a proporção de ar- 


quitetos contra o projeto e a respectiva variância Varac!p]. 


. Considere as 5 réplicas como sendo uma única amostra, estime a pro- 


porção e o respectiva variância Vara asclp]. 


. Compare Varaclp|/Varaaselp] e analise o resultado. O coeficiente de 


correlação intraclasse é importante neste problema? 


.: Descreva o sistema de referência (frame), que você pode usar. 


7.17 Será feito um levantamento amostral para estimar uma proporção P de in- 


divíduos portadores de uma certa característica. Espera-se que essa proporção 


seja da ordem de 50% na população. A população está disposta em conglo- 


merados de 5 indivíduos cada, e o coeficiente de correlação intraclasse é 0,60. 


Decidiu-se sortear a conglomerados e entrevistar todos os indivíduos do con- 


glomerado. Deseja-se que o erro máximo seja 0,05. 


a. 


b. 


Quantos conglomerados devem ser sorteados? 


Se fossem subamostrados 2 indivíduos por conglomerado, quantos con- 


glomerados deveriam ser sorteados para se ter a mesma precisão? 


7.18 O exército de Atlândida é formado por 400 companhias com 100 soldados 


cada uma. Uma amostra aleatória simples de 10 companhias foi sorteada e 


todos os soldados responderam a um questionário sócio-econômico. O número, 


por companhia, daqueles que responderam “sim” a uma das questões foi: 25, 
33, 12, 32, 17, 24, 26, 23, 37 e 21. 


a. 


Estime a proporção P dos soldados do exército que responderiam “sim” 


a essa questão. 


. Estime o erro padrão desse estimador. 
. Construa um intervalo de confiança de 95% para esse parâmetro. 


. Supondo que as respostas acima correspondam a uma amostra aleatória 


simples de 1000 soldados, qual seria a estimativa de P e o seu erro padrão? 


. Construa um intervalo de confiança de 95% para esse caso. 


. Calcule e interprete o EPA = Varaclp]/Varaaslp). 


7.8 Amostragem sistemática 193 


g. Calcule o coeficiente de correlação intraclasse pint e interprete-o. 


h. Verifique que EPA = 1 + pint(B — 1). 


7.19 Um supermercado deseja estimar qual a despesa média dos fregueses, usando 
uma amostra de 20% dos clientes. O estatístico encarregado da pesquisa de- 
cidiu usar um sorteio sistemático com quatro repetições. Assim, ele sorteou 
quatro números aleatórios entre 1 e 20 (sorteados 4, 6, 13 e 17), dando origem 


à seguinte amostra: 


Réplica Elementos Nº de elementos Despesa total Soma de quadrados 


1 4, 24, 44, ... 50 4.000 421.000 
2 6, 26, 46, ... 50 4.200 435.000 
3 13, 33, 53, ca 50 3.800 400.000 
4 17, 37, 57, ui 50 3.900 405.000 


Usando estes dados, estime a despesa média por freguês e dê limites para o 


erro de estimação. 


Teóricos 


7.20 Para conglomerados de mesmo tamanho, determine a de modo que 
P(IT-- 7| < B) = 1-0, 
onde B e a são fixados e Te = Ne. 


7.21 Obtenha um estimador não viciado para a variância de pe2 da proporção 
P, no caso em que os conglomerados são de mesmo tamanho. Construa um 


intervalo de confiança para P com coeficiente de confiança y = 1 — a. 


7.22 Proponha estimadores para a média populacional u quando uma amostra 
de a conglomerados segundo a AASs é selecionada de uma população com 
A conglomerados de igual tamanho. Use a notação da Seção 7.1. Obtenha 


expressões para suas variâncias. 


7.23 Proponha pint para o caso em que os conglomerados são selecionados sem re- 
posição. Proponha também uma estimativa para este parâmetro, descrevendo 
detalhadamente as variâncias envolvidas. Considere conglomerados de igual 
tamanho. 
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7.24 Verifique que Vk = Varl[y,;.| pode ser escrita como em (7.8). 


7.25 Considere a divisão de uma população (com N = nk elementos) em n zonas 
onde cada uma das zonas é constituída por k elementos, conforme ilustrado 
na Tabela 7.4. Suponha que cada zona constitui um estrato e que uma única 
observação é selecionada (segundo a AAS) de cada um dos k estratos. Seja 
Jes O estimador estratificado de | definido no Capítulo 4. Mostre que 

2 
Varige] = (1 - p)Se 


onde 


Considere o Exemplo 7.7. Verifique que Var[7..] = 3,08. 
7.26 Considere a população de tamanho N = nk, onde 
D = (1,2,...,k, 1,2,...,k, 200, ED del 


isto é, a população é constituída por n zonas cada uma com os elementos 
1,...,k. Considere as amostragens (i) AS, (ii) AAS e (iii) AE com um elemento 
selecionado aleatoriamente por estrato (zona). Encontre Varl[7,;s5], Var[y] e 


Varlg.,]. Se você estimar Vy por Vs, você super (ou sub) estima Vy? 


7.27 Considere uma população com N = nk elementos onde k é ímpar e todas as 
zonas de k elementos são iguais a 
k-l k+1 k-1 
RARE DE 


teased 
Faça o mesmo que no Exercício 7.26. 


7.28 Considere uma população U de tamanho N, onde N = nk e Y; = i, i = 


1,..., N. Esta população está dividida em n zonas de tamanhos k, ou seja, 
D = (1,2,...,k, k+1,...,2k, ..., (n—=1)k+1,... nk). 


Considere cada uma das n zonas acima como estratos. Selecione uma AAS de 
tamanho 1 de cada um das n zonas. Mostre que 
k? —1 

12n ’ 


Varlyes] = 


onde Jes é a média da amostra selecionada. 
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7.29 


7.30 


7.31 


7.32 


7.33 


7.34 


Considere os estimadores yp e r definidos no Capítulo 5 e assuma AASc. 
Encontre uma expressão aproximada para Var [yp] e para Var[r|. Proponha 


estimadores para estas variâncias. 


Mostre que, no caso populacional, podemos escrever 
a 2 a 2 
Ba > ) Es “5 

5 = Ya Va) = 5 Z3 ~ Ya: 

a=1 B a=1 B 
Verifique a validade da expressão (7.5). 
Mostre que s2., definido em (7.1) nem sempre é um estimador não viciado 

de o2. 

Prove os Corolários 7.2 e 7.3. 
Conforme visto na Seção 7.8, a amostragem sistemática usual não permite 


a obtenção de estimadores da variância da estimativa da média. Recordamos 
que na amostragem sistemática usual, a população é dividida em n zonas com 
k elementos cada, onde N = kn. Para poder contornar esta dificuldade, vamos 
considerar amostras sistemáticas replicadas. Nesta situação, a população com 
N elementos é dividida em ns zonas com k’ = ks elementos em cada zona, de 
modo que 


f 
n=sns e N =nk= n,ks = n,k. 


Na primeira zona selecionamos s elementos segundo a AASs (ou AASc) e, 
sistematicamente, selecionamos um elemento de cada zona para cada amostra, 
sempre observando a ordem do elemento selecionado na primeira zona para 


cada amostra. 


Exemplo: Para uma população com N = 40, n = 8 e k = 5, podemos 
sortear s = 2 amostras sistemáticas com n2 = 4 elementos cada, de modo que 
k! = ks = 5 x 2 = 10, ao invés de uma única amostra sistemática com n = 8 


elementos. 


Estimador de u: Dadas as médias Hsi1,...,ŁHsis das s amostras sistemáticas, 
consideramos como estimador da média populacional a média das médias 


amostrais, isto é, 


_ se 
Ysi 7 7 > Msij- 
e 
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a. Usando resultados já vistos para amostragem por conglomerados de ta- 


manhos iguais (identifique as amostras sistemáticas como conglomerados) 


com AASs, mostre que y,;p é não viciado para estimar u. Mostre que 
S2, 
Varaass[Dsin] = (1 — fs) E, 


com fs = s/k' = s/(ks) = 1/k e S? p = D (Usij — u)? /(k' —1). Mostre 


também que um estimador não viciado de Varaass[7si;r| é dado por 


2 
se. 
varasssVsir| = (1 — fs) E 


=| sad 
onde s2, = Sj-=1 (Hsij — Voir) /(s — 1). 


. Considere a população dos N = 180 condomínios do Exercício 2.2, onde 


a variável de interesse é Y;, o número de domicílios alugados no i-ésimo 
codomínio, i = 1,...,180, com esta ordenação. Estime u usando amos- 
tragem sistemática com n = 20 e s = 4 réplicas. Estime a variância desta 


estimativa. 


Capítulo 8 


Amostragem em dois estágios 


Quando os conglomerados são homogêneos, menos recomendável se torna o uso da 
amostragem por conglomerados completos, isto é, a coleta de todas as suas unida- 
des. Como as unidades são muito parecidas, elas trarão o mesmo tipo de informação, 
aumentando a variação amostral. Essa inconveniência fica mais clara ao considerar 
uma situação limite em que todos os elementos do conglomerado são iguais. Bastaria 
conhecer as informações de um deles para se conhecer todo o conglomerado. Assim, 
uma saída para aumentar a eficiência, sem aumentar o tamanho da amostra, é sub- 
sortear elementos dos conglomerados selecionados. Ou seja, usar um plano amostral 
em dois estágios: no primeiro sorteiam-se conglomerados e no segundo sorteiam-se 
elementos. 

Após a população estar agrupada em A conglomerados, descreve-se o plano 


amostral do seguinte modo: 


i. sorteiam-se no primeiro estágio a conglomerados, segundo algum plano amos- 


tral; 


ii. de cada conglomerado sorteado, sorteiam-se ba elementos, segundo o mesmo 


ou outro plano amostral. 


Neste capítulo, para desenvolver as propriedades dos estimadores e devido a 
simplificação das demonstrações, usar-se-á quase sempre AASc nos dois estágios. 
Para outros esquemas amostrais a derivação é feita de modo análogo, sendo que 


algumas delas encontram-se como sugestões nos exercícios. 


Exemplo 8.1 Volte-se ao Exemplo 7.1, onde a população está agrupada em três 
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conglomerados da maneira abaixo: 
u = {(1), (2,3,4), (5, 6)} = (Ci, Ca, C3}, 


onde 
Ci = {1}, C2 = {2,3,4} e ©C3= {5,6}. 


O plano amostral adotado será o sorteio de dois conglomerados por AASs e de cada 
conglomerado sortear uma unidade com igual probabilidade. Como no Exemplo 7.1 
a construção do espaço amostral pode ser feita em duas etapas: primeiro construindo 
o espaço gerado pelos conglomerados e depois para cada par o espaço gerado por 


eles. Assim, tem-se para os conglomerados 
Se(U) = {C1C2, C103, C2C1, C203, C301, C3C2}. 


Observe que a probabilidade de seleção de cada ponto sc; do espaço amostral S(U) 
é igual a 1/6. Em seguida para cada par pode-se construir o respectivo espaço 


amostral. Assim, para a combinação C4C5 tem-se 
S(C1C5) = {12, 13, 14}. 


Condicionando a este subespaço, cada ponto s; terá probabilidade 1/3 de ser sor- 
teado. Combinando as probabilidades cada ponto amostral desta combinação terá 
probabilidade 1/18 de ser sorteado. Reunindo-se todos estes subespaços e as respec- 
tivas probabilidades, tem-se bem caracterizado o plano amostral por conglomerados 
em dois estágios. Para facilitar a compreensão do procedimento acima, resume-se 
na Tabela 8.1 os pontos amostrais e respectivas probabilidades. 

Diferentemente do Exemplo 7.1, aqui a amostra terá tamanho fixo (a = 2). Consi- 


dere agora associado o vetor de dados 
D = (12,7,9, 14,8, 10) 
com os parâmetros 
u=10, ==, N=6, B=2 e A=3. 
Definindo-se a estatística média simples por amostra 


E a ylsı] + yls2] 
S E SR 
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Tabela 8.1: Espaço amostral e probabilidades na A2E 


Sci P(sei) S; P(silsa) P(s;) Sci P(sci) S; P(silsci) P(s;) 
1 12 1/3 1/18 1 21 1/3 1/18 

CO 13 1/3 1/18 GO & 31 1/3 1/18 
14 1/3 1/18 41 1/3 1/18 

gor A 15 1/2 1/12 Big A 51 1/2 1/12 
6 16 1/2 1/12 6 61 1/2 1/12 

25 1/6 1/36 52 1/6 1/36 

26 1/6 1/36 53 1/6 1/36 

GC; 1 35 1/6 1/36 CC) 1 54 1/6 1/36 
6 36 1/6 1/36 6 62 1/6 1/36 

45 1/6 1/36 63 1/6 1/36 

46 1/6 1/36 64 1/6 1/36 


pode-se calcular o seu valor para cada amostra. Assim, 


12+7 10+14 + 
20 DE 


12. 


y|12] = 9,5,..., y[64] = 


Na Tabela 8.2 aparecem todos os resultados possíveis e de onde é possível construir 


a seguinte distribuição amostral e seus respectivos parâmetros: 


J 75 85 95 10 105 11 12 13 
P()): 2/36 4/36 6/36 6/36 4/36 8/36 2/36 4/36 


Ely = 10,33 Varly] = 2. 


Observe que este estimador é viesado para a média popualacional. Note que Y[s1] 
corresponde ao valor da característica (valor de Y) associado ao indivíduo selecio- 
nado no primeiro conglomerado selecionado e Y[s2], no segundo. Define-se agora 
a 
E Ba. 
[bra pI” 
a=1 

onde a corresponde ao número de conglomerados sorteados no primeiro estágio e 


B=5 4, Ba/A, cujos valores amostrais são calculados do seguinte modo: 


1x12+3x7 2x10+3x 14 
— = 8,25,...5,U 4| = 
2x? 8, 5, , Y2c1 [64] 2x2 


Os demais valores estão também na Tabela 8.2. Deixa-se aos cuidados do leitor 


calcular a distribuição amostral. Através dela pode-se obter os parâmetros: 


Elo] = 10, Var[Ņz21] S 6,92. 
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Tabela 8.2: Valores de y e Joq na A2E 


si P(s;) vlsi) vlso] Y Ya si P(s;) vlsi) vlso] V Ya 
12 1/18 12 7 9,5 8,25 21 1/18 7 12 9,5 8,25 
13 1/18 12 9 10,5 9,75 31 1/18 9 12 10,5 9,75 
14 1/18 12 14 13,0 13,50 41 1/18 14 12 13,0 13,50 
15 1/12 12 8 10,0 7,00 51 1/12 8 12 10,0 7,00 
16 1/12 12 10 11,0 8,00 61 1/12 10 12 11,0 8,00 
25 1/36 7 8 7,5 9,25 52 1/36 8 7 7,5 9,25 
26 1/36 7 10 8,5 10,25 53 1/36 8 9 8,5 10,75 
35 1/36 9 8 8,5 10,75 54 1/36 8 14 11,0 14,50 
36 1/36 9 10 9,5 11,75 62 1/36 10 7 8,5 10,25 
45 1/36 14 8 11,0 14,50 63 1/36 10 9 9,5 11,75 
46 1/36 14 10 12,0 15,50 64 1/36 10 14 12,0 15,50 


Observe-se que este estimador é não viesado para a média populacional. 

O cálculo da esperança de um estimador pode ser executado do mesmo modo como 
foi construído o espaço amostral. Assim, dentro de cada par de conglomerados 
calcula-se o valor esperado da estatística, ou seja, o valor esperado condicionado à 
ocorrência daquele par. Por exemplo, para o par C1C2 tem-se o seguinte desenvol- 
vimento: 


So(C105) = {12, 13, 14}, 


com os seguintes valores para o estimador 7,.: 
VYoc1 [12] — 8, 25, V901/18] = 9, 75, Jəc1|14] = 13, 5. 


Conseqüentemente, usando o índice 2 para indicar o valor esperado condicionado ao 


particular par de conglomerados, tem-se 
1 
Es [7920110105] = 368, 25 +9,75 + 18, 5) = 10,5 = Yeal Co]. 


Estendendo os resultados para os demais pares, constrói-se a distribuição: 


Si: C1C2 CC CC C2C3 C3C1 C3C2 
Jea: 10,5 75 105 12 75 12 
Pa) 1/6 1/6 1/6 1/6 1/6 1/6 


Usando o índice 1 para indicar a esperança calculada no espaço amostral gerado 


pelos conglomerados, tem-se 


1 
Eia] = 6(10,5+7,5+10,5+12+7,5+12) = 10. 
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Este tipo de procedimento será bastante usado para cálculo de valores esperados e 


variâncias. 


8.1 Notação e plano amostral 


O plano amostral será aquele já definido na seção anterior e indicado por A2ZE, ou 
seja, sorteiam-se a conglomerados (unidades primárias) por AASc e em seguida, 
também por AASc, sorteiam-se ba elementos (unidades secundárias). Sem perda de 
generalidade, consideramos que as unidades primárias 1,...,a tenham sido sorteadas 
como enfatizado no Capítulo 7. 

A notação a ser usada é a mesma adotada no Capítulo 7. Entretanto, convém 
observar que as estatísticas dentro do conglomerado também podem variar, o que 


não ocorria quando o plano era em um único estágio. 


8.2 Estimadores da média por elemento 


8.2.1 N conhecido 


O parâmetro a ser estimado é a média global por elemento 
T AT T 
N AB B 


Como o total de elementos N usualmente é conhecido, basta substituir o numerador 


L 


acima por um estimador não viesado. O estimador usualmente adotado é 


1 a o a 
= -5 B yY 1 B = 
(8.1) Y2c1 — = 5 mra — a D p Jo 


a=1 


Teorema 8.1 Para o plano amostral definido tem-se que Voc de (8.1) é não viesado 


para |t e que 


A 2 2-2 
pal- + so (Ba A so (Boy o 
(82) Varaa] = aA ( B'S n) aA ( B ) ba 


Prova. Usaremos o resultado bem conhecido da esperança condicional, isto é, 


EX] = £ [Ex]. 


Aqui, o índice 2, como no Exemplo 8.1, indica a esperança condicional a uma 


particular seleção de unidades primárias de amostragem (UPAs), enquanto que 
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o índice 1 é usado para todas as combinações possíveis destas UPAs. Assim, 


Else] = E É 5 A 


a=1 B 


14 Ba 
A E Te — E Y . 

EÈ Zen] 
Mas dentro do a-ésimo conglomerado sorteado com Ba unidades, está sendo 
usado um plano AASc, e sabe-se do Capítulo 3 que 


Ev [Ya] 


=a =Ya e Varia] = 


Substituindo-se na expressão acima tem-se 


Elm] = E 1 y Ba 
Y2c1] = Ea Fa gej 
a=1 
Note que ua é uma variável aleatória representando o parâmetro média do a- 


ésimo conglomerado sorteado no primeiro estágio. Para facilitar o raciocínio, 


imagine uma população formada de A unidades e considere associada a cada 
conglomerado a variável X, do seguinte modo: 


B 
Xa — as 


B 


Assim, a média x de uma amostra de a unidades retiradas por AASc dessa 
população terá a seguinte expressão: 


so 1 Bo 
g a=1 B é 
E também valem as propriedades 

A 

= gd Ba 

Eliza] = Ef=X=>5 usu 

A a=1 B 
Zaal 

(8.3) Varı Yc] Varila] = — = — 


conforme a notação do Capítulo 7. Substituindo acima tem-se provada a pri- 
meira parte do teorema, isto é, 


Epa] = Pile] = X = q 
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A demonstração da segunda parte será feita em duas etapas. Primeiro, lembre 


também do resultado da variância condicional 


Varl7o] = E1 [Varzza]] + Varı [Elza] 


com os índices 1 e 2 tendo o mesmo significado anterior. Partindo da primeira 
parte da expressão tem-se 


a 


1 2, ah 
Varalyoc] = a p) vantul- 55 (F ) E=1D%- 


onde Vx é uma variável aleatória auxiliar de raciocínio local associada ao sorteio 


dos conglomerados, tal que 


1 /Ba\? o? 
Va = — = aA 
(E) É 


E: [Varzza]] = fı | : D (2) 


(8.4) 


| 
" 
gi 
S 
Q 
xA 
Ms 
(TN 
bol) 2 
ia 
Sl 


com v = DD Va, a média de uma amostra de tamanho a da população 
Viı,..., Va. Para o segundo termo basta recorrer aos resultados da variável 


auxiliar X dados em (8.3). Assim, 


o Ba Lets. 
Var AA = Varı É 2 T” di] = Varı È à Pa ual 
A 2 
1 Ba 
= Van[z] =D (ua n) 
a=1 


Combinando os dois resultados, o teorema fica demonstrado. 


Para entender melhor o significado desse resultado é interessante reescrever as 


fórmulas de um modo mais conveniente. Primeiro observe que 
A 2:09 
1 y (=) [oo 
AZNB ba 


mede uma certa variabilidade dentro dos conglomerados, corrigida pelo número de 


unidades sorteadas no segundo estágio, ba. Defina-se o parâmetro w) associado ao 
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plano amostral que indica o tamanho médio (esperado) das amostras no segundo 


estágio, ou seja, quando calculado para todos os conglomerados. Desse modo, 


Defina-se também 
A 2 
1 B Y 
OOE a 2 
(8.5) O2de 7 A x ( B ) ba Oas 


que seria uma medida de variabilidade dentro dos conglomerados. Observe que 


quando os conglomerados têm o mesmo tamanho e as amostras também, CER reduz- 
se a o2., definido no Capítulo 7. Substituindo os resultados (8.3) e (8.5) em (8.2) 


obtém-se 


2 2 
(8.6) Varza] = ect T E 


ay 


com g2 também definido no Capítulo 7. Ou seja, a variância do estimador 79. de- 


pende da variabilidade entre os conglomerados bem como da variabilidade dentro dos 
mesmos. Viu-se que para um estágio, a variância depende apenas da variabilidade 


entre conglomerados, como seria esperado. 


Lema 8.1 Um estimador não viesado de od É 


DEBE Y 
8.7 = E) 32 
E ed By ha 
a=1 
onde s2 é a variância amostral no conglomerado a = 1,..., A. 


Prova. Lembre-se inicialmente que E» [s2] = o2, pois dentro do conglomerado foi 


adotado o plano AASc. Assim, 


cd = efatad]-a[É G Pao 
= E E (S a = Fifu] = U, 
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e u denota a média de uma amostra de tamanho a da população U,,.. 


< U4, 


e portanto 
A 2 
Tr 1 Ba Y 2 2 
01-45 (F) 87 o 
o que demonstra o lema. 
Lema 8.2 O estimador 
É ai B 2 
8.8 S cs I ) 
( ) S9ect a-1 x ( B Ya Y2c1 
é viesado para o2, com 
2 2 Ode 
(8.9) E A = Cect + p 
Prova. Reescrevendo a expressão (8.8), tem-se 
a B 2 a B 2 
(8.10) (a= ska = 5 (5% = Tra) = 5 (=) Tê — AT 
a=1 a=1 
Calculando a esperança de cada parcela separadamente tem-se para o último 
termo j 3 
2 10 a 2; 7.0 Tec | T2de 2 
E EM = Var [Poa] + E“ Ma] = P + ni +H 


e para o primeiro, 


ROL 


| 
5 
vi) 


2 
ps 
MN 


II 
a 
2 
REA ES DR 
Me 
pa 
PETS 
vo 
Q 
sei Na A 
N N 
Q — 
= 
do q 
E , | 
SN 
“o — 


PT 
to wl 


pd 
N 
o ag 
S Q 
Q 
i 
TS 
wl S 
o A 
N 
p= 
oN 
(A, 


Em 
S 
al=e =e 
Qa 
PO 
wl y 
a. 
N 
Sle 
Q 
SN 


Q 
I 
m 
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Note que foram utilizadas as variáveis de raciocínio local Ua e Wa, onde Us é 


como na prova do Lema 8.1 e 


B 2 
m= (F) 
Concluindo, 
Er BaN a 
n [E (55) r] = Solat aota t op 
a=1 
Substituindo-se os dois resultados em (8.10), tem-se 
2 a 2 2 2 2 Ode 2 
(a o DE EM = ,O2de + AC ect + ap Cect au 
Y Y 
2 
= (a-1)ože+ (a - 1)”, 
Y 

o que demonstra o lema. 

Combinando os Lemas 8.2 e 8.2, tem-se 
Corolário 8.1 Um estimador não viesado de o2, é dado por 

2 
s 
(8.11) Br g 
Prova. 
2 2 2 
s 1 o o 
E B = ie =E EM m T EA E Che F E zi A = Gee 


Teorema 8.2 Um estimador não viesado de Var [Uac] é 


(8.12) 


2 
Es SDect 
pi 


var [Voc] 


onde s2. está definido em (8.8). 


Prova. 


2 2 
Cect Ode 


E [varpa] = -E EM a ap ` 


Observe que embora o estimador só use a variabilidade entre conglomerados, 


ele já traz dentro de si a variabilidade dentro dos conglomerados. 
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8.2.2 Estimador razão 


Outro estimador usado quando desconhece-se B é o estimador razão 


(8.13) Yo 2 = f = GE Boda = Si BaVa 
emr e e 


Convém ressaltar que embora N = el Ba é desconhecido na população, > 4-1 Ba 
na amostra pode ser determinado, pois envolve apenas os conglomerados sorte- 
ados e que serão subamostrados. Assim, algumas vezes usar-se-á By, Ba € fla 
(ou Ya) para ressaltar o fato de que embora sejam parâmetros em relação ao se- 
gundo estágio (índice 2), são variáveis aleatórias (estatísticas) em relação ao primeiro 


estágio (índice 1). 


Teorema 8.3 O estimador Yo.» é viesado para u com 


2 =2 
0, o 
(8.14) Var [pza] = — + —2de, 
a ap 
Prova. Observe em primeiro lugar que o estimador pode ser escrito como 
= 1 a Ba Ee 
(8.15) Doo = estBada att plo Tor, 
E Da- Ba 1 Doaa Ta T2c1 i 


onde a variável auxiliar contadora Xa; = 1, qualquer que seja œ e à. Em 
seguida, usando o Exercício 7.29, tem-se que para um estimador razão r = U/7, 


quociente de duas médias: 


u-R z 
ES oo Em 
Var|z 
Varlr] = no 
var[r] = nana 


onde Z; = Y; — RX;. Lembrando que 


Ai Yam ha Las AGE lyg Bo 


R= Ea Bala REA 
E A — N E H, 
Xai Ba 
= 16 Ba_ 1 
E[T2c1] =E ES ea = zn [B] =1, 


Vac1 — RT2c1 = 2201, 
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substitui-se na primeira propriedade acima obtendo-se 


2 o Pa RT21 Za _, 
Y22 T HX 1 RE A Z92c1- 


Portanto, 
Varl7o.9] = Var[Z20]. 
Usando os resultados do Teorema 8.1 e (8.6), obtém-se 


EA | SSaelZ], 


V PA = T 
ar[Z2c1] 3 ay 
Mas, 
IEB: R&B 1&4 Bl% 
Ael o p” a E a ER ai = R) 


e como R = 4, equivale à transformação mencionada 
Zar = Yan ~ U= Yor Y: 


Assim, pode-se calcular 


A 2 A 2 
1&/B 1 B 52 
2 a a 
A 2 B als 


já que Z = 0. Lembrando que Zo = Ya — Y = uo — u 
A 2 
1 B 
CécilZ] = A 5 (=) (Ha = nº = o2 
a=1 
Também do fato que 
B B 
| ums = 82 Je 
dass (a ES si 
Ba i=1 2 i=1 
= 1 a 2 A Sã 
= B (Yai — Ha) = 04[Y| = 04, 
Nii 
vem 
A 2 A 2 
1 B Y 1 B p 
2 a 2 a 2 
03delZ] = ( o2[Z] > (5º) 5 
E da B ba o A B ba * 
= S3aclY] = Ode 


Vare] = Var[Z20] = 


demonstrando parte do teorema. Para a outra parte, veja o Exercício 8.16. 
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Proposição 8.1 Um estimador da variância de Voc» é dado por 


he. S9ect [2] 
var [oco] = , 
a 
onde 
2 
A | q Bos 3) 
S9ect = = Za 4% , 
aJ-5(5 

com 
(8.16) Dai = Yoi — V22Xai, 


onde Xai = 1, i= 1,..., Ba, a=1,...,4. 


Justificativa. Inicialmente, pelo Teorema 8.2 tem-se que s$.., é um estimador não 
viesado de o2,, + ER /Wb, assim bastaria adaptar este estimador para a variável Z. 
Entretanto a variável Z, na amostra, seria calculada por Zai = Yxi — UXai, € H É 


desconhecido. A sugestão natural é substituir u por seu estimador, assim 


Zai = Yoi — Vogais, 


com Xai = 1, i = 1,..., Ba, a = 1,..., A, justificando o uso da proposição acima. 
Fica bem difícil estudar as propriedades deste estimador. Porém, assintoticamente 
(em amostras grandes) ele é (praticamente) não viesado. Após algumas mani- 


pulações algébricas escreve-se 


aE A 
5 < — 2 
Sect [2] = Sea = a= Ì 2 (Z) (Va = Y2c2) : 


2 
2eq 


2 


eq; considerado no 


Note que s$., é a versão para amostragem em dois estágios de s 


Capítulo 7. 
8.2.3 Média simples 


Um estimador muito usado, quando desconhece-se o tamanho médio B, é a média 


simples dos conglomerados 
= LÃ. 
(8.17) Y2e3 = a 5 Yas 
a=1 


cujas propriedades resumem-se no 
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Teorema 8.4 O estimador Yoe3 é viesado para u com 


LA 
Elyoes] = E = A 5 Ha, 
a=1 


portanto, o viés é dado por 


Lie B 
1 B [J>] = T — u = — 1-5 
(8.18) mal=n-n= 55 (1-5) ha 
A variância do estimador é dada por 
A A 2 
1 2 1 o 
Varly = g) ṣ4 E 
ar [T223] aA x (Ma F) aA x E 
o2 o2 
8.19 ss em 2am. 
(8.19) a Cad 


onde 


1 
de 
Cem = 


D| 


> 2 > cad > Va 
(Ma > T) e O2dm Z À Tla 
= A b 

a=1 

Prova. Veja o Exercício 8.14. 


Teorema 8.5 Um estimador não viesado de Var[7,e3] é 


2 
(8.20) var[oe3] = E 
onde á 
1 es o yig 
E = = e (Da E J23) ; 
Ga a=1 


Prova. Veja o Exercício 8.15. 


A comparação da eficiência dos três estimadores leva às mesmas observações 


feitas após o Corolário 7.1. 


8.3 Conglomerados de igual tamanho 


8.3.1 Estimador para a média por elemento 


Quando todos os conglomerados têm o mesmo tamanho, isto é, 


Bis BrsmeBis Be B 
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e de cada conglomerado sorteado subsorteia-se o mesmo número de unidades b, as 
fórmulas derivadas até agora tornam-se muito mais simples. Neste caso o tamanho 


médio será sempre conhecido, e os três estimadores propostos coincidem, pois 


E 1< 
Y21 = Se pla Dm =Ma= DR 
e 1 A a=1 i=1 
S Xa- Bay B SOE ARE o 
(8.21) Vaca = a = IO Ty = Yoc: 


Da aB 


Com a segunda suposição de que 


E b2 =... = ba = b, 


tem-se 
Y =b. 
As fórmulas para as variâncias dentro e entre conglomerados também simplificam-se. 


Tem-se então o resultado imediato 


Corolário 8.2 Para conglomerados de tamanho igual a B o estimador Yo. é não 


viesado e E ; 
= o o 
(8.22) Varl[7oe] = a + E 
estimado por 
— Seo 

varla] = Že, 

onde E 
1 — x2 
Sec O E a > (Va = Vac) 
a—l E 


Prova. A demonstração segue imediatamente da substituição dos parâmetros nos 


Teoremas 8.1 e 8.2. 


8.3.2 Uso da correlação intraclasse 


A utilização da correlação intraclasse facilita a interpretação dos resultados. Por 
exemplo, quando todos os conglomerados tem tamanho igual a B e amostras no 


segundo estágio são de tamanho b, o resultado resume-se no 


Corolário 8.3 Para conglomerados de tamanho igual a B, tem-se 


o? 


(8.23) Varlyoe) = {1 + pim(b — 1)} E 
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Prova. Lembre de (7.2) que 


2 g? 
Oec 7 {1 F Pint( B e D) 
e 
2 B=1 2 
Ii = -p (1 — pint)o?. 


Admitindo B suficientemente grande para que 


B—1 1 
EE | — x0 
B ° B 


vem o2. = pinto? e oi. = (1 — pint)o?. Substituindo em (8.22), 


2 


o 
= (pintb +1-— Pint) — 


o Pint R (1 — pint)o? 
| ab 


a ab 


Var [2e] ~ 


2 


o 
in =], “7 
(+ pmb- DIS; 


o que demonstra o corolário. 


8.3.3 Eficiência do plano amostral em dois estágios 


Do Corolário 8.3 chega-se a 

(8.24) EP Algo) = 1 + pim(b — 1), 

que é muito parecido com o resultado do Corolário 7.5, de que para um único estágio 
EPAlye) = 1 + pin(B — 1). 


Como usualmente pint > 0, perde-se em usar amostragem por conglomerado. 
Entretanto, em (8.24) b é escolhido pelo pesquisador, assim quando a população 
tem pint muito alto, pode-se escolher b pequeno, para compensar o efeito da conglo- 
meração. 


Suponha o tamanho da amostra n fixo e considere dois planos: 


1. AC, em um único estágio o sorteio de a conglomerados e o uso de todos os 


elementos; 


2. A2E, em dois estágios, com sorteio de a” conglomerados e subsorteio de b 


elementos, tal que: 
n=aB = a'b, com b < B. 
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Assim, 
o? 
Jd = {1+ pm(B -1)} > 
Varsclyc| {1 + pint( )} aB 
Ho 

Varsop[V>el = {1 ay Pint (b = 1)} wb 

Desse modo, 

y 1 in: — 1 


Varaclūe] 1+ pim(B-1) 7 

Ou seja, o plano em dois estágios é mais eficiente se pint > 0, o que ocorre com 
freqüência na prática. Este último resultado permite estabelecer a estratégia para a 
escolha do plano amostral em dois estágios. 

A comparação quando os conglomerados são de tamanhos diferentes, é muito 
mais complicada, mas espera-se algo muito semelhante. Kish (1965), através de 
resultados empíricos, especula que pode ser usada uma fórmula aproximada para o 
EPA, que seria 
(8.26) EPA = 14 pmi(W— 1), 


onde 1) é o número médio de unidades subamostradas. 


8.3.4 Tamanho ótimo de b 


Como em casos anteriores considere uma função de custo linear da forma 
C = ca + cab, 


onde cı é o custo de observação de uma unidade do primeiro estágio, c2 do segundo 
estágio e C o custo total da pesquisa. O objetivo é minimizar Var[y5.] para um 


custo fixo C ou vice-versa. Isto é equivalente a minimizar o produto 


o O 
Varlyae]C = t + cb) (cia + cab). 


Através da desigualdade de Cauchy-Schwartz dada em (4.11) tem-se 


Teorema 8.6 Para uma função de custo linear, o tamanho ótimo de b deve ser 


Prova. Veja Exercício 8.25. 
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Observe que quanto maior for a variabilidade dentro dos conglomerados, Dos 
em relação à entre conglomerados, o2., mais elementos devem ser sorteados dos 
conglomerados. De modo análogo, quanto mais caro for obter o conglomerado em 
relação às unidades dentro dele, mais unidades elementares dentro dele devem ser 


usadas. 


Exercícios 


8.1 Refaça o Exemplo 8.1 considerando que as unidades no primeiro estágio são 
selecionadas com reposição. Compare a variância obtida com a variância ob- 


tida através da expressão (8.2). 


8.2 Refaça o Exemplo 8.1 considerando agora que as unidades no primeiro e 


segundo estágios são selecionadas sem reposição. 


8.3 Para se estudar certo tipo de doença em determinado cereal, plantas são 
cultivadas em 160 canteiros contendo 9 plantas cada canteiro. Uma A ASc de 40 
canteiros é selecionada e 3 plantas são examinadas (segundo a AASc) em cada 
canteiro selecionado para se verificar a presença ou não da doença. Verificou-se 
que em 22 dos canteiros observados, nenhuma das plantas pesquisadas tinham 
a doença, 11 tinham 1 planta com a doença, 4 tinham 2 e 3 tinham 3. Encontre 
uma estimativa para o número total de plantas com a doença e uma estimativa 


para a variância de sua estimativa. 


8.4 Uma população de N = 2.500 individuos esta dividida em 5 estratos, cada um 
com 50 conglomerados de 10 pessoas. Indicando por Yhai O i-ésimo indivíduo 


do a-ésimo conglomerado dentro do h-ésimo estrato, sabe-se que: 


5 5 50 
> Nar (un = u)? =350, 3553 Nha (Hho — un)? = 1.650 
1 h=10=1 


= 
II 


5 50 10 
bJ >, 5 (Yhai N lha) = 3.000. 


h=1 a=1 i=1 


Considere os seguintes planos amostrais: 


i. Sorteie uma amostra de 250 pessoas e calcule a média amostral y = 
5 50 10 
E aci Ver Ynai/250. 
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ii. 


iii. 


iv. 


Dentro de cada estrato sorteiam-se 50 indivíduos e calcula-se a média da 


amostra Yes- 


De cada estrato sorteiam-se 5 conglomerados, e todas as pessoas do con- 


glomerado são entrevistadas. Calcula-se a média 7... 


De cada estrato sorteiam-se 10 conglomerados, e seleciona-se a metade 


dos indivíduos do conglomerado. Calcula-se a média Y5c- 


. Escreva as fórmulas e calcule os valores das seguintes variâncias: Var[y], 


VarlTes|, Varl7.| e Var[Doc. 


. Calcule os valores dos possíveis EPA's. 


. Comente sobre o plano amostral mais interessante. 


8.5 Um funcionário do serviço sanitário precisa determinar o número médio por 


lata de milho, de uma larva típica desse produto. O carregamento que ele 


precisa examinar contém 1.000 pacotes, cada um com 50 latas de milho. Ele 


sorteou 10 pacotes, e de cada um sorteou duas latas. Em seguida contou o 


número de larvas existentes nessas latas, com os seguintes resultados: 


Pacotes 
Latas 1 2 3 4 5 6 78 9 10 Total 
1 42 9 8 8 5 0 41 7 4&8 
2 6 5 5 9 4 1 644 8 52 
Total 10 7 14 17 12 6 6 8 5 15 100 


. Qual o número médio de larvas por lata? 
. Estime a variância para a estimativa em (a). 
. Dê uma estimativa da correlação intraclasse. 


. Quantos pacotes seriam necessários no primeiro estágio para se ter a 


mesma variância, se forem sorteados 5 latas em vez de duas? 


8.6 Um estimator para a variância do estimador razão (N desconhecido) que pode 


ser considerado no caso da AASs é dado por 


a a Ba 2 2 
varpa] = (1 deh (2) (L- fa) $, 
a=1 a 
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8.7 


8.8 


com 5 
Zer RE 1 T /B = — x2 
N = É Ba, Se = 5 (=) (Ta z Voe2) 


Divida a população dos N = 180 condomínios na Tabela 2.8 em A = 6 conglo- 
merados, onde o conglomerado 1 vai do condomínio 1 até o 20, o conglomerado 
2 vai do 21 ao 50, o conglomerado 3 vai do 51 ao 90, o conglomerado 4 vai do 
91 ao 110, o conglomerado 5 vai do 111 ao 140 e o conglomerado 6 vai do 141 
ao 180. Considere ba = 0,20Bá como o tamanho da amostra no conglome- 
rado a = 1,...,6. Usando AASs selecione a = 3 conglomerados no primeiro 
estágio e então amostras de tamanho by nos conglomerados selecionados no 
primeiro estágio. Estime a média populacional considerando inicialmente N 
conhecido e a seguir usando o estimador razão sem utilizar N conhecido. En- 
contre estimativas para as variâncias nas duas situações. Utilize o Exercício 


8.17. 


Considere os dados do Exercício 7.14, sobre os “besouros da batata”, como 


sendo a população de interesse e dispostos em 24 conglomerados de 2 x 2. 


a. Sorteie uma amostra de 3 conglomerados e de cada conglomerado sorteie 
2 lotes de 1 x 1. 


b. Estime o número médio de besouros por lote na região e dê o respectivo 


erro padrão da estimativa. 
c. Estime o coeficiente de correlação intraclasse. 


d. Qual seria a variância estimada por uma AAS de 6 lotes? 


O plano amostral de uma pesquisa realizada consistiu em amostrar quarteirões 
por probabilidade proporcional ao tamanho (PPT) e, dentro do quarteirão 
sorteado, selecionar em média b = 6 domicílios. As maiores despesas ocorreram 
na listagem, que foi 20 unidades de dinheiro (ud) por quarteirão, e de entrevista 
que custou 5 ud cada. Mediu-se também o efeito de planejamento para 3 
variáveis do estudo, obtendo-se: (i) 3,5; (ii) 2,0 e (ii) 1,5. Esta pesquisa 
será repetida e foi alocada uma verba de 6.000 ud para listagem e entrevista. 


Usando os dados da pesquisa anterior: 


a. Determine os valores ótimos de b para cada uma das três variáveis; 


b. O tamanho da amostra em cada um desses casos; 
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c. Calcule as variâncias das médias de cada variável para os três valores de 
b encontrados em (a). Construa a tabela 3 x 3 da razão da variância 


observada em relação à menor variância. 


8.9 Será feito um levantamento amostral para estimar uma proporção P de in- 
divíduos portadores de certa característica. Espera-se que esta proporção seja 
da ordem de 50% da população. A população está disposta em conglomerados 
de 5 indivíduos cada e o coeficiente de correlação intraclasse é 0,60. Decidiu-se 
sortear a conglomerados e entrevistar todos os indivíduos do conglomerado. 


Deseja-se que o erro máximo (desvio padrão) seja 0,05. 


a. Quantos conglomerados devem ser sorteados? 


b. Se fossem sorteados apenas dois indivíduos por conglomerado, quantos 


conglomerados deveriam ser sorteados para se ter a mesma precisão? 


8.10 Para estimar a proporção de moradores de uma cidade que usaram o serviço 


médico oficial, usou-se o seguinte procedimento: 
1. Dividiu-se a cidade em 200 zonas de aproximadamente 60 domicílios cada 
uma. 
2. Sortearam-se 5 zonas, com igual probabilidade e com reposição. 


3. De cada zona, sortearam-se, através de um processo sistemático, 10% dos 


domicílios. 


4. De cada domicílio entrevistaram-se todos os moradores. 


Os resultados foram: 


RA Nº de moradores dos domicílios sorteados 
Zona sorteada N° de domicílios 


Nº dos que usaram o serviço médico 


022 65 563854 
3 3 1642 
4 4 6 2 
164 42 
2 3 3 2 
117 57 AR 
4 4 2 1 3 2 
055 76 10 4 456535 
8 2 133200 
025 48 ; 
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Dê um intervalo de confiança para a proporção procurada, justificando e cri- 


ticando o estimador usado. 


8.11 Deseja-se estimar o número médio de pessoas por domicílio, numa população 
formada por 10 aldeias e cujos dados estão na tabela abaixo. Decidiu-se usar 


o seguinte plano amostral: 


1. Sortear duas aldeias com probabilidade proporcional ao número de casas 
(com reposição). 


2. De cada conglomerado selecionado, sortear quatro casas (sem reposição) 


e contar o número de pessoas. 


Aldeia Nº de casas Tamanho das casas 


1 16 7554623556544533 

2 18 654545653544533 564 

3 26 66353455444375 462556155463 
4 18 63636345444563 5135 

5 24 54654565447665 4456343353 

6 17 3446573545464533 6 

7 20 64454564354655245434 

8 24 95337414664537645635135644 

9 24 935346546563656635445462 
10 22 44554145435534543435441 


a. Sorteie uma amostra nas condições indicadas. 
b. Qual a probabilidade de uma casa ser sorteada? 
c. Qual a estimativa do número médio de pessoas por domicílio? 


d. Dê um intervalo de confiança para a resposta (c). 


8.12 Queremos estimar a proporção dos 1.000 empregados de uma companhia 
que possuem carros. À companhia está dividida em 20 departamentos, cada 
um com 50 funcionários. Sorteamos 10 departamentos e dentro de cada um 
sorteamos 10 funcionários. O número de possuidores de carro em cada depar- 
tamento foi: 5, 1, 2, 7, 3, 6, 3, 0, 2 e 10. Dê uma estimativa para a proporção 
e construa um intervalo de confiança de 95% para a proporção de funcionários 


da companhia que possuem carro. 
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8.13 Quer-se estimar a renda média mensal por domicílio da cidade de Cataguá. 
Inicialmente dividiu-se os 1.000 domicílios em 50 conglomerados de 20 casas 


cada um. À partir daí três pesquisadores usaram os seguintes planos amostrais: 
i. sorteiam-se 4 conglomerados, sem reposição, e entrevistam-se todos os 
domicílios desses conglomerados; 


ii. sorteiam-se 4 conglomerados, com reposição, e num segundo estágio sorteiam- 


se, sem reposição, metade dos domicílios do conglomerado; 


iii. divide-se a população em dois estratos, um com 800 e outro com 200 
domicílios. De cada estrato sorteiam-se dois conglomerados entrevistando 


todos os domicílios. 


Suponha que os números levantados por cada plano amostral foram: 


Conglomerado Média Variância 


1 5,6 441 
2 6,1 5,76 
3 7,2 5,29 
4 8,4 6,25 


Para o plano (iii), suponha que as duas primeiras unidades são do estrato 1 e 


as duas restantes do estrato 2. 
a. Calcule a renda média estimada e o respectivo erro padrão para cada 
plano amostral. 


b. Para os dois primeiros planos calcule o coeficiente de correlação intraclasse 


e correspondente EPA. 


c. Baseando-se nos resultados obtidos comente sobre os três planos. 


Teóricos 


8.14 Usando um desenvolvimento similar ao da demonstração do Teorema 8.1, 


prove o Teorema 8.4. 


8.15 Demonstre o Teorema 8.5 usando um desenvolvimento similar àquele usado 


no Teorema 8.2. 
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8.16 Complete a prova do Teorema 8.3. Use (8.15), os resultados do Exercício 7.29 
para o estimador razão e a variável auxiliar Zai = Yxi — RX, & = 1,..., Á, 
i=1,..., Ba. 


8.17 Refaça o Exercício 8.16 considerando AASs no primeiro e segundo estágios. 


Proponha também um estimador para a variância. 


8.18 Suponha que uma população U de tamanho N está dividida em A conglo- 
merados de tamanhos Ba, a = 1,..., A. Desta população, um conglomerado 
Ca (a = 1) é selecionado segundo a AAS. Deste conglomerado uma amostra de 
tamanho ba é selecionada segundo a AASc. Considere os estimadores 7, = Ya, 


a média da amostra selecionada e Jo = ABaJa/B. 


a. Encontre Ely,| e Elyo]. Verifique se eles são não viciados. 


b. Encontre o EQM dos estimadores y, e yə. 


8.19 Refaça o Exercício 8.18, considerando agora que a amostra do segundo 


estágio é selecionada de acordo com a AASs. 


8.20 Seja uma população U dividida em A conglomerados. Considere a amostra- 
gem em dois estágios onde os conglomerados são de tamanho Ba (diferentes), 


2 


uma amostra de a conglomerados é selecionada no primeiro estágio e uma 
amostra de ba elementos é selecionada do conglomerado Ca selecionado no 
primeiro estágio, a = 1,...,a. Suponha que em ambos os estágios é usado o 


esquema AASs. Como estimador de u, considere Yə}. Mostre que 


Rs Sos 1 A Ba E sê 
Varia) = 0-2 (7) Cg 
onde fı = a/A, fou = ba/Ba, N = N/A, 
A 2 Ba 
1 B 1 
Dn do Que. gem 2 
Sa= 105 (ua n) e Sá PIÀNA Ha) ? 


i=l 


8.21 Continuação do Exercício 8.20. 


a. Mostre que 
2 


S 
Varala] = (1 = faa) 72, 
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de modo que 
E Sê 
E» A (1 = Pro) ne ps 
onde ja e S2 são, respectivamente, a média e a variância populacionais 
no conglomerado a. 


b. Mostre que 


Ba S2 
Varal [721] 2 1 B A fa) b , 


de modo que 


c. Use (a) e (b) para concluir que 


2 4Br o 2 “(BB pa N 
m [Do (Gema Da) | = (Zeu ad Ga) 


d. Use (c) para mostrar que 
2 2 Sa 
E AE Sea a > Bl aora 2 
ba 


onde S24 é como dado no Exercício 8.20 e s2.., como em (8.8). 


e. Usando (a)-(d), mostre que um estimador não viciado para Var[y5a| é 


dado por 


Joc] = 1 jay 1 fo) 
varla] =( ED (F) omg 


f. Sendo os conglomerados de tamanhos iguais a B e sendo selecionada 
uma amostra de tamanho b dentro de cada conglomerado selecionado no 


primeiro estágio verifique como fica Var[75.]. Neste caso temos que 


1— 
varpa] = (1 - pn) Se + BOIS 


A 
a=1 


onde s2.. é como dado na Seção 8.3.1. 
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8.22 Refaça o Exercício 8.21, considerando agora o estimador razão Yoco- 


8.23 Suponha agora que a variável de interesse na população do Exercício 8.21 
seja dicôtomica, ou seja, Yai = 1 se o elemento à no conglomerado a pos- 
sui a característica de interesse e O caso contrário. Encontre expressões para 


VarlPrei] e para sua estimativa, onde Ba = Yoc1, nos casos AASc e AASs. 


8.24 Refaça o Exercício 8.23 considerando agora um estimador do tipo razão para 


a proporção de interesse. 
8.25 Demonstre o Teorema 8.6. 


8.26 Uma população de N indivíduos está dividida em A conglomerados de B 
elementos cada. Adotou-se o seguinte plano amostral: 
1. sorteiam-se a conglomerados com reposição e igual probabilidade; 


2. de cada conglomerado sorteado selecionam-se, por AASs, b (b < B) ele- 


mentos. 


a. Defina um estimador para a média populacional. 
b. Derive a expressão da variância desse estimador. 


c. Derive um estimador não viesado da variância encontrada em (b). 


d. Calcule 
2 
E| -— f) 
[ f) i | 
onde 
A B a 

1 1 1 ab 
Sa = a E (Ta y) , Ya B a Yai, y a A Ya e f AB 


e. Como ficaria a variância em (b) escrita em função do coeficiente de cor- 


relação intraclasse? 
8.27 Refaça o Exercício 8.26 usando sorteio sem reposição. 


8.28 Um plano amostral para conglomerados de igual tamanho prevê colher as 
UPA's através de AASc e USA's com AASs. 


a. Deduza a Var[y]. 


8.3 Conglomerados de igual tamanho 223 


b. Qual seria um estimador não viesado para Var[y]? 


c. Proponha um estimador razoável para a correlação intraclasse, pint- 


8.29 Discuta estatisticamente a utilização do coeficiente de correlação intraclasse 


em amostragem. 
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Capítulo 9 


Estimação com probabilidades 


desiguais 


Nos capítulos anteriores, todas as técnicas de estimação desenvolvidas foram base- 
adas em esquemas probabilísticos onde todas as amostras tinham a mesma proba- 
bilidade de serem selecionadas. Neste capítulo, desenvolve-se técnicas de estimação 
baseadas em esquemas probabilísticos mais gerais. Teoricamente, pode-se consi- 
derar esquemas probabilísticos mais gerais. O problema que surge é a obtenção 
de expressões para o vício e para a variância dos estimadores. Estimadores para 
as variâncias obtidas são também de interesse primordial. Os esquemas aborda- 
dos apesar de bastante gerais, apresentam estimadores não viciados e possibilitam 
a obtenção de expressões para as suas variâncias. O exemplo a seguir ilustra tal 


situação. 


Exemplo 9.1 Considere uma população dividida em grupos ou conglomerados de 
tamanhos Na, & = 1,...,4. Desenvolve-se um esquema probabilístico com re- 
posição, onde as probabilidades de inclusão são proporcionais aos tamanhos dos 
grupos Na, œa = 1,..., A. Considere uma população com A = 6 grupos dados na 
Tabela 9.1. Para selecionar uma unidade, escolha um número aleatório entre 1 e 25. 
Suponha que seja o número 11. Como o número 11 cai no intervalo correspondente 
à unidade 3, que vai de 6 a 13, a unidade 3 é selecionada. As unidades seguintes 
que farão parte da amostra serão selecionadas com reposição. Portanto, a unidade 


3 pode novamente fazer parte da amostra. 


O exemplo que apresentamos a seguir considera o caso em que um único con- 


glomerado é selecionado. As probabilidades de seleção neste caso são estabelecidas 
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Tabela 9.1: Tamanhos dos grupos 
Unidade Na Si, Now Intervalo 


1 3 3 1-3 
2 2 5 4-5 
3 8 13 6-13 
4 4 17 14-17 
5 1 18 18 
6 7 25 19-25 


pelo pesquisador como sendo proporcionais aos tamanhos dos conglomerados. 
Exemplo 9.2 Considere novamente a população U, com N = 6 elementos onde 
D = (2,6,10,8,10,12). 
Para esta população, u = 8. A população está dividida nos 3 conglomerados: 
Cı = (1,2), com m = 4; C2 = {3}, com u2 = 10; C3 = {4,5,6}, com ug = 10. 


Procedendo como no Exemplo 9.1, as probabilidades de inclusão dos grupos 1, 2 e 
3 são iguais a 2/6, 1/6 e 3/6, respectivamente. Selecionando um conglomerado de 
acordo com as probabilidades acima, tem-se a distribuição do estimador YJ, dada na 
Tabela 9.2. 


Tabela 9.2: Distribuição de Ye 
vei 4 10 
P): 2/6 4/6 


Então 
Ely]=4x=-+10x -=8 
Ye 6 6 b) 


ou seja, Ye é não viciado e 


Varg] =% 8)? + (10 8)? = 8. 


9.1 Caso geral 


Considere uma população com N, unidades que podem ser inclusive grupos ou con- 


glomerados. Suponha que associada à unidade à da população tem-se uma medida 
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M;, obtida segundo algum critério estabelecido previamente. Por exemplo, amos- 
trando hospitais, essa medida poderia ser o número de leitos. Já em levantamentos 
de indústrias, uma medida do tamanho pode ser o número de empregados ou o 
faturamento em um determinado período. 

Definida a medida do tamanho da unidade à por M;, a probabilidade de seleção 
associada ao elemento i será 


(9.1) Zi 


i= 1,..., N, onde Mo = YÀ} Mi. 
Seleciona-se então, com reposição e probabilidade de seleção Z; para cada 
unidade, uma amostra s de tamanho n da população. Como estimador do total 


populacional 7, considera-se a estatística 
(9.2) D > 
es Zi 


Para estudar as propriedades do estimador 7ppz, considere fi, o número de vezes 
que a unidade à é selecionada, i = 1,...,N. A distribuição conjunta de f,..., fN é 
multinomial, ou seja, é dada por 

n! 


fil... fy! 
com 5A fiz ne yA 1 Zi = 1. Utilizando algumas propriedades da distribuição 


RE RM ZE, 


multinomial, tem-se que 


(9.3) Elfl=nZ, Varlfil=nZ(l — Zi) 
e, para i A j, 

(9.4) Covlfi, fj] = =nZiŽj, 
ij=1..., N. 


Teorema 9.1 Se uma amostra de n unidades é selecionada com AASc, de acordo 


com as probabilidades de inclusão Z14,...,ZN, então 
(9.5) Elm =T 
e, 
Lo 2 
(9.6) Vppz = Var [pp] = na Da i (ž- r) ? 


onde Tppz está definido em (9.2). 
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Prova. Pode-se escrever 7ppz, definido em (9.2), como 


N 
E 1 Y; 
Tppz = 2 


De (9.3), tem-se que 


provando (9.5). Por outro lado, utilizando (9.3), (9.4) e o fato de que XA} Zi = 


1, tem-se que 


; ESE YY; 
Varal = fS (5) Var [f]+25> da e) 
i=1 lá i<j? 
DESE rr 
= Hf (5) Zi — Zi) 2> 7 fan 
i= <J 


II 
Z= 
TO" 

2z 
NES 
l 
N 
NO 
II 
3z |= 
Mz 
as 
Al 
l 
Naour 
N 


(veja o Exercício 9.5) provando (9.6). 


Note que se Z; = Y;/T, então Vppz = O. Contudo, os valores de Y; não são 
conhecidos, mesmo após amostragem. Por outro lado, sabendo-se que os Y; são 
aproximadamente proporcionais a alguma variável auxiliar conhecida para todas 
as unidades da população, então as probabilidades de seleção podem ser tomadas 
proporcionais a estas variáveis, esperando-se uma redução na variância do estimador. 
Um estimador da média populacional u é obtido dividindo-se îppz por N, número 
de elementos na população. 

O teorema a seguir estabelece uma expressão alternativa para a variância do 
estimador 7,pz dado em (9.2). A prova é deixada como um exercício (veja o Exercício 
9.6). 


Teorema 9.2 Sob as condições do Teorema 9.1, tem-se que 


2 
Y Y 

À -=>> MA o Se S 

(9.7) Vop n (5 +) 


Apresenta-se a seguir um estimador não viciado de Vppz. A prova também é 


deixada como exercício (veja o Exercício 9.7). 
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Teorema 9.3 Sob as suposições do Teorema 9.1, um estimador não viciado de Vppz 


dado no Teorema 9.2 é dado por 


A 1 E ao 2 


iEs 


Exemplo 9.3 Continuação do Exemplo 2.1. Tomando Z; proporcional a T;, número 
de trabalhadores no domicílio i, i = 1,2,3, temos, que Zı = 1/6, Zə = 3/6 e 


Z3 = 2/6, e por (9.3), para uma amostra de tamanho n = 2 que 


1_ 1 1 5 5 

= Rio. = 2 = Er an de 

Elfi] 2 x 6 3º Varlfi xX 6 x 6 18º 
3 3 3 1 

Elf] =2x 551, Varlf)=2x a mD 
2 2 2 1 4 

E T =I K O E 
[f3] x 6 3º Var| fs] x 3 x 3 9 


Portanto, o plano amostral com probabilidades desiguais não é simétrico (veja Seção 
2.6). A Tabela 9.3 apresenta a distribuição amostral da média amostral e do esti- 
mador 7,pz para um plano de seleção com probabilidades proporcionais ao tamanho 
Zi com n = 2 da população de três domicílios. 


Tabela 9.3: Distribuição amostral de 7ppz 
s: dl 12 13 21 22 23 31 32 33 
P(s): 1/36 3/36 2/36 3/36 9/36 6/36 2/36 6/36 4/36 


fio 2 1 1 1 0 0 1 0 0 
fr 0 1 0 1 2 1 0 1 0 
f 0 0 1 0 0 1 1 1 2 


y: 12 21 15 21 30 24 15 24 18 
Topz: 172 66 63 66 60 57 63 57 54 


Usando a distribuição amostral de f; dada na Tabela 9.3, recalcule E[f;| e Var[fi], 
i = 1,2,3. Para o estimador média simples tem-se 


E] =23 e Varly| = 555,5 — 23? = 26,5, 
de modo que o estimador 7 = NY tem as propriedades 
E?î] = NE] = 3 x 23=69 e Var[f?] = N?Var[y] = 9 x 26,5 = 238,5. 


Portanto, o estimador expansão NY é viciado para o total populacional com o plano 


amostral com probabilidades de seleção proporcionais a Z;. Já para o estimador îppz 


230 Estimação com probabilidades desiguais 


tem-se que 


E [Fpp] =60 e Var[îppz] = 3618 — 60? = 18. 


Como esperado, o estimador îppz é não viciado para o total populacional 7 e apre- 
senta variância menor que o EQM do estimador expansão 7. Pode-se calcular a 


variância de 7ppz usando (9.6). Note que 


V, 2i 1e 60) (2 60) +2 (3 so) = 18 
PPZ 2 \6 (1/6 6 \3/6 6 \2/6 F 
como calculado acima. 


9.2 Amostragem por conglomerados 


No caso particular da amostragem por conglomerados, onde o tamanho do conglo- 


merado a é Ba, 4 é o número de conglomerados e N é o tamanho da população, 


temos que 
B 
(9.8) da 
a = 1,...,A. A prova do teorema que segue é deixada como exercício (Exercício 
9.8). 


Teorema 9.4 No caso da amostragem por conglomerados com probabilidades de 


seleção dadas por (9.8) acima, tem-se que 
1 a 
i. Tppz = NYe3, COM Vez = P DE ha; 
a=1 


A 


Ba (Ha — w’; 
=] 


z x N 
ii. Vppz Varia] = P 


a 


iii. Um estimador não viciado de Vopz é dado por 
7 E AD 
Vopz = Mes) > (ua — Veg)". 


Assim, um intervalo de confiança para 7 com coeficiente de confiança y = 1—aq 


é dado por Tppz + 201/ Vppz- 
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9.3 Estimador razão 


A definição do estimador razão e algumas propriedades, tais como o seu vício e sua 
variância com relação à AASc, foram vistos no Capítulo 5. Associado à unidade à 
da população U temos o par (X;, Y;), onde as variáveis X1,..., Xpy são conhecidas e 
positivas. Desta população, uma amostra s de tamanho n é selecionada. Considere 


o estimador 


9.9 T=— EEE , 
ao "ns Xi a du Po 
1€S 1€S 
ou seja, Ri = X;/Y, i = 1,...,N. Os valores R; (correspondentes ao indivíduo i) 


são selecionados com reposição e com probabilidade proporcional a X;, 


X; X; 
(9.10) pan ES 
Dik NX 


i=1,...,N, onde X = 5» X;/N. O Exercício 5.17 mostra que 7 é um estimador 
viciado de R=Y/X com relação à AASc. 

Por outro lado, como será visto a seguir, T é não viciado com relação ao 
planejamento amostral onde as probabilidades de seleção são dadas por (9.10). As 


provas dos resultados seguem dos Teoremas 9.1 e 9.3. Veja os Exercícios 9.9 e 9.10. 


Teorema 9.5 De acordo com o planejamento amostral descrito, tem-se que 


Ef] =R, 
e que 

N 2 

1 Xi (Yi 
9.11 V. = Varlr| = = R). 
(911) ato ave (x ) 


Teorema 9.6 Um estimador não viciado de V, de (9.11) é dado por 


Estimadores do total populacional 7 e da média populacional yu obtidos a partir 


de 7 são discutidos no Exercício 9.11. 


9.4 Amostragem em dois estágios 


No Capítulo 8 discute-se amostragem em dois estágios, onde as unidades do primeiro 


e do segundo estágios são selecionadas de acordo com a AASc. Nesta seção, supõe-se 
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que as unidades do primeiro estágio sejam selecionadas com reposição. Suponhamos 
também que as probabilidades de seleção das unidades do primeiro estágio sejam 
dadas por Za, « = 1,...,4, de tal forma que So Za = 1. Para as unidades 
selecionadas no segundo estágio, considera-se a AASc como no Capítulo 8. 

Como estimador do total populacional 7, sendo sorteada uma amostra de a 


conglomerados no primeiro estágio, considera-se 


1 


a B y 
Aros ava 
(9.12) Tppz = a 5 A 


a=1 


Tem-se então 


Teorema 9.7 Com probabilidades de inclusão Za no primeiro estágio e AASc no 


segundo estágio, 


Elfopel = 7, 
z A A 
"i 1 T, A B? o? 
Vim = Varfim] = g a) E 


Prova. Veja o Exercício 9.12. 
A seguir, apresenta-se um estimador não viciado para Vppz- 


Teorema 9.8 Sob as suposições do Teorema 9.7, um estimador não viciado de Vppz 


é dado por 
1 3 er k | 
= ——— — 4 ; 
a(a — 1) Za pp? 


a=1 


Vppz 


Prova. Veja o Exercício 9.13. 


No Exercício 9.14 considera-se o caso especial em que 

Ba 

N’ 

a= 1,..., A. Estude também o caso em que Za = 1/A, a = 1,..., A. 


(9.13) Za = 


9.5 O estimador de Horwitz-Thompson 


Nesta seção, assume-se que as unidades participantes da amostra são selecionadas 
sem reposição. A população é constituída por A unidades (podem ser, por exemplo, 
conglomerados ou grupos na amostragem estratificada) e dessas A unidades, a são 


selecionadas sem reposição. Define-se: 
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e 7;, a probabilidade de que a unidade à faça parte da amostra e 


e Tij, à probabilidade de que as unidades à e j façam parte da amostra, i,j = 
1,...,4. 


Como definido no Capítulo 2, para um determinado plano amostral, 


m=> P(s) e Tij = 5 P(s). 


tes tijjes 


Assim, valem as relações (veja o Exercício 9.15) 


A 
(9.14) X ri =q, DI Tij = (a — 1)q; 
i=1 


j+i 
e 
E 1 
(9.15) 5 X Tij = aula —1). 
i=1 j>i 
O estimador de Horwitz-Thompson do total populacional é então dado por 
Y; 
(9.16) tHT=D =, 
To 
1€S 


com as seguintes propriedades 


Teorema 9.9 Se as unidades amostrais são selecionadas sem reposição, com pro- 


babilidades de inclusão Ti e Tij, tem-se 


Elfgr] = 7, 
e 
(9.17) Var = Var[ nr] = X — Y2+25 5, , Ivy, 
i ic T 

Prova. Defina 

1, setEs 

fi = i . 
0, sei és 
i= 1,..., A. Portanto, f; segue uma distribuição de Bernoulli com probabili- 


dade de sucesso 7;. Assim, (veja o Exercício 9.16) 


(9.18) Elfi = mi, Varlfi] = mi(1 — ri) 
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e 
(9.19) Coulfis fil = Tij — Tinj. 
Portanto, 
A Y; 
A KA 
Ef nr] = > Elfl=7 
i=1 Ti 
Além disso, 


A 

e y Var[f:] o EConlfa f 
i=1 i=1 j>i MEN 

A 
2 


Vir = 


=D io o DO 
i=1 j>i 


de modo que (9.17) segue. 


A variância Vyr pode também ser representada de uma outra forma. Veja o 


Exercício 9.19. Um estimador não viciado para a variância Vyr é dado em (9.17). 


Teorema 9.10 Um o não viciado de Vyr é 

(9.20) rs os so EO 
m2 MNT 
is i ics [j>ijes 34) 


Prova. Veja o Exercício 9.17. 


Exemplo 9.4 Considere novamente a população do Exemplo 2.1, onde duas unida- 
des são selecionadas de acordo com AASs proporcionalmente ao número de traba- 
lhadores no domicílio, ou seja, de acordo com as probabilidades Z4 = 1/6, Z2 = 3/6 
e Z3 = 2/6. De acordo com as probabilidades calculadas no Exemplo 2.8, constrói-se 
as distribuições amostrais de 7yr e de y na Tabela 9.4. 
Da Tabela 9.4 obtém-se 

25 51 44 


6 (09 = 1) o € T (ôs = 1) 50’ 


de onde resultam os valores de 77 na tabela. Verifique que E[7Hr] = 60 e portanto 


me Roe dj= 


THT é não viciado para 7, como esperado pelo Teorema 9.9. Pode-se também mostrar 
que E(7] = NEly|] = 3 x 21,85 = 65,55, que é portanto um estimador viciado para 


o total populacional 7. Note também que 


16 

P(ói=1,09=1 — 

T12 T21 ( 1 102 ) 60° 
9 

T13 T31 Plór 1,03 1) 60 e 
35 


T23 T32 P(do 1,03 1) 
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Tabela 9.4: Distribuição amostral de Tyr 
s: 12 13 21 23 31 32 


P(s): 6/60 4/60 10/60 20/60 5/60 15/60 


dy: 1 1 1 0 1 0 
da: 1 0 1 1 0 1 
3: 0 1 0 1 1 1 


y: 21 15 21 24 15 24 


2 5.448 2.934 5.448 11.190 2.934 11.190 
HT: 85 55 85 187 55 187 


Verifique que Var[y| = 9,93 e Vyr © 11,13. 


9.6 Amostragem de Bernoulli 


Uma maneira simples de selecionar uma amostra sem reposição, onde as unidades 
são selecionadas de maneira independente, é obtida através da amostragem binomial 
(ou de Bernoulli). O estimador utilizado é um caso particular do estimador de 
Horwitz- Thompson, considerado na seção anterior. Considere a situação em que 


a probabilidade de inclusão da i-ésima unidade é constante, ou seja, mT; = p, ea 


probabilidade de inclusão das unidades i e j, Tij = MTj p,iżj=1,...,N. Para 


implementar este esquema, N ensaios de Bernoulli com probabilidade de sucesso p 
são simulados, de forma que o ensaio 1 corresponde à unidade 1, o ensaio 2, a unidade 
2 e assim por diante até o ensaio N. As unidades que farão parte da amostra serão 
aquelas correspondentes aos sucessos nos n ensaios. O tamanho da amostra é uma 
variável aleatória com valor esperado Np. Portanto, para obter uma amostra com 
aproximadamente 10% da população toma-se p = 0,10. Como esimador do total 
populacional 7, consideramos então o estimador de Horwitz- Thompson com 7; = p, 
TB ne : 5 Y;, 
i€s 


que é viciado. A variância do estimador acima é dada por 


N 
(9.21) Vg = Var[îs] = (G a 1) Sye, 
i=1 


que segue diretamente do Teorema 9.9. Um estimador de Vg vem do Teorema 9.10 


Pp=5(-DDR 


p iEs 


e é dado por 
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Exercícios 

9.1 Considere uma população U dividida em 3 grupos, G1, G2 e G3 dados por, 
respectivamente, Dı = (2,6), Də = (10,8,10,12) e Ds = (4,8,12). Selecione 
dois grupos com reposição com probabilidades de seleção Za proporcionais aos 
tamanhos dos grupos. Encontre a distribuição, média e variância do estimador 
descrito na Seção 9.2. 

9.2 Estime o total populacional para a população dos apartamentos alugados nos 
180 condomínios da Tabela 2.8 usando amostragem de Bernoulli com p = 0,10. 
Compare os resultados com uma AASs com o mesmo n. 

9.3 Considere a população das 645 cidades do estado de São Paulo disponível no 
site do IBGE (www.ibge.gov.br). Considere dois estratos, um com as cidades 
com mais que 200 mil habitantes e outro com as cidades com menos que 200 
mil habitantes. Use os resultados do Exercício 9.20 com pı = p2 = 0,08. 

9.4 Retire uma amostra (escolha o tamanho) com probabilidade dada por Z;, sem 
reposição, da população: 

Unidade Y; Zi 
1 30 0,10 
2 50 0,12 
3 45 0,12 
4 40 0,10 
5 20 0,06 
6 10 0,06 
7 60 0,12 
8 40 0,10 
9 30 0,10 
10 65 0,12 
Estime o total e a variância associada. 
Teóricos 
9.5 Considere as suposições do Teorema 9.1. Mostre que 


N 2 N 2 
Y; 2 (5 ) 
> +-r=35a(>-r). 

i=1 Zi i=1 Zi 
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9.6 


9.7 


9.8 


9.9 


9.10 


9.11 


9.12 


9.13 


9.14 


9.15 


9.16 


9.17 


9.18 


Prove o Teorema 9.2. 


Prove o Teorema 9.3. Use o resultado 


[E8]-= [238] 


tes 1 


Prove o Teorema 9.4. 
Prove o Teorema 9.5. 
Prove o Teorema 9.6. 


Proponha estimadores para 7 e u baseados em F e no esquema probabilístico, 


definidos na Seção 9.3. 
Prove o Teorema 9.7. 
Prove o Teorema 9.8. 


Verifique como ficam os resultados dos Teoremas 9.7 e 9.8 no caso especial 


em que as probabilidades de seleção são dadas em (9.13). 
Verifique a validade das expressões (9.14) e (9.15). 
Verifique a validade das expressões (9.18) e (9.19). 
Prove o Teorema 9.10. 


Considere uma população dividida em A grupos de tamanhos Ba, a = 
1,...,4. Destes grupos, uma amostra de a = 1 grupo é selecionada de acordo 
com as probabilidades proporcionais ao tamanho do grupo. Do grupo a sele- 
cionado no primeiro estágio, uma amostra sa de tamanho ba é selecionada de 


acordo com a AASs. Considere os estimadores 


Yı = Yo 


a. Encontre Ely,| e Ely]. Verifique se eles são não viciados. 
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b. Encontre o EQM dos estimadores y, e yə. 
c. Refaça (a) e (b) considerando Za = 1/4, a =1,...,4. 


9.19 Mostre que a variância Vyr dada em (9.17) pode ser escrita como 


A 2 
Vir=5D> (mm; Tij) É 5) : 


A pi Mi VAJ 


9.20 Estenda os resultados da Seção 9.6 onde se considera amostragem de Ber- 
noulli para o caso da amostragem estratificada, com probabilidades de inclusão 
Ph; h= lys H: 


9.21 Os dados de uma população estão dispostos em conglomerados de tamanhos 
distintos. O parâmetro de interesse é o total 7 de uma característica populaci- 
onal. Serão sorteados, com reposição, a conglomerados com probabilidades Za 
distintas e conhecidas à priori. Dentro de cada conglomerado selecionado será 
sorteada uma subamostra através de algum processo probabilístico (não é ne- 
cessário, mas se quiser use AASc) que irá produzir um estimador não viesado 


Ta para o total do conglomerado 74. Considere o estimador 


a. Mostre que 7 é não viesado para 7. 


b. Mostre que Var[7] é composto por Vppz do Teorema 9.4 e uma componente 


referente a amostragem do segundo estágio. Encontre essa componente. 
c. Determine var[7]. 
d. Faça os comentários que achar pertinente. 
9.22 Estude a possibilidade de definir um estimador para a média populacional 


usando amostragem de Bernoulli para amostragem por conglomerados. Faça 


o mesmo para a amostragem em dois estágios. 


Capítulo 10 


Resultados assintóticos 


Neste capítulo, considera-se Teorema do Limite Central para os estimadores y, Yp e€ 
Y Reg com relação à amostragem aleatória simples sem reposição. Estes resultados são 
considerados, principalmente, em Scott e Wu (1981). As condições para a validade 
dos resultados são em geral satisfeitas na prática, a não ser que os dados apresentem 
observações discrepantes (outliers). Veja Bussab e Morettin (2004), Capítulo 3, 
para algumas considerações sobre dados discrepantes. O leitor interessado apenas 
em aplicações não deve se preocupar com os detalhes das provas dos resultados. Por 
outro lado, leitores interessados em resultados mais teóricos devem complementar 
a leitura do capítulo, lendo cuidadosamente o artigo de Scott e Wu (1981), por 
exemplo. Na primeira seção, apresentam-se alguns resultados assintóticos para a 
média amostral. Nas próximas duas seções são apresentados resultados assintóticos 
para os estimadores razão e regressão. Na Seção 10.4 são consideradas aplicações 
para a amostragem por conglomerados. Na última seção consideramos um estudo de 
simulação para ilustrar o comportamento da probabilidade de cobertura do intervalo 
de confiaça para a média populacional baseado na aproximação da distribuição da 


média amostral pela distribuição normal. 


10.1 Estimador média amostral 


Considere uma sequência de populações (U,k,>1, de tal forma que Nypi > Ny, 
v > 1. Da população U,, uma amostra s, de tamanho ny (n,41 > ny) é selecionada 
segundo a AASs. Associadas à população U, tem-se a média e a variância popula- 
cionais, Y, = uy e 92, e a média amostral 7,, correspondente à amostra observada. 


Conforme visto no Capítulo 3, a média amostral y, é um estimador não viciado para 
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Hv. Deduziu-se também que 
S2 
Var lg)=(1- f), 
Ny 
onde f, = n,/N,, v > 1. Temos então o 


Teorema 10.1 Suponha que n; > œ e Ny — ny > œ quando v — œ. Considere 
também que a seqüência {Yiv şin satisfaz a condição de Lindeberg-Hajek, 


li Yi Hv 
mm 


gs Chieoai  Es 0 
vV—00 N, — 2 i 
T, (8) ( v 1)S2 


para todo ô > 0, onde T,(8) é o conjunto das unidades em U, para os quais 
[Yiv — ul S 
VA — fo) S? 
Então, com relação à AA Ss, 
Yy — Wv D 
= fo) S/n% 


> N(0,1), 


quando v — 00. 


i D eha NERE a a 
No teorema acima tem-se que “—>” significa convergência em distribuição 


(Leite e Singer, 1990). Um outro resultado importante é considerado a seguir. 


Teorema 10.2 Suponha que (Yivkiv satisfaz a condição 
s2 
(10.1) 0-0, 


V 


quando v — œ. Então, com relação à AASs, 

= P 

Yy Z My —> 0, 
quando v — 00. 


O resultado do Teorema 10.2 é uma conseguência direta da desigualdade de 
Chebyshev (veja Leite e Singer, 1990). Como uma consegiiência direta do Teorema 


10.2, tem-se o 


2 
Corolário 10.1 Se a segiência (E satisfaz a condição (10.1), então, 
v wW 


2 
Sw P] 
57 i 


quando v — œ, onde s2 é um estimador não viciado de S2. 
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Combinando os resultados do Teorema 10.1, Corolário 10.1 e Teorema de 
Slutsky (Leite e Singer, 1990), tem-se o 


Teorema 10.3 Se a segiiência (Yivkiv satisfaz as condições do Teorema 10.1 e a 
condição (10.1), então 
Yy — Wv D 
(1 = fo)si/ny 


» N(0,1), 


quando v — 00. 


10.2 Estimador razão 


Nesta seção, considera-se que associado à unidade į da população U tem-se o par 
(Yi, Xi), à = 1,...,N, onde as variáveis auxiliares X; são conhecidas para todos 
os elementos da população. Conforme visto no Capítulo 5, o estimador razão de 
uy = Y é dado por É 

YR= A , 
onde X = ux =), X:/N é conhecida. 


Definimos então, associadas à população U,, as quantidades 
(10.2) Riv = Yiv — by Xiv, 


onde by, = VM j =1,..., N. 


Não é difícil mostrar (veja o Exercício 10.1) que a média populacional das 


variáveis Riv,...,Rnv é R, = 0, com variância populacional 
E. œ% 
10.3 S2, = SS Res 
( ) Rv N, = 2 iv 


Como na seção anterior, Ny+1 > N, e ny41 > ny, para todo v > 1. 


Teorema 10.4 Suponha que 


i. {Riv}i satisfaz a condição de Lindeberg-Hajek e 


ü. {že} satisfaz a condição (10.1). 
Então, com relação à AASs, 


Yrv o Yy D 


VO- F) 


quando v — 00. 
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Prova. Pode-se verificar que (veja o Exercício 10.2) 
(10.4) Jr -Yv =, 


onde Ty = Ses Riv/nv. Desde que R, = 0, segue de (i), juntamente com o 
Teorema 10.1, que 7 
(10.5) a 


VS 


quando v — œ. De (ii), juntamente com o Teorema 10.2, temos que 


2, N(0,1) 


(10.6) ELELE 
Xv 


O resultado segue da combinação de (10.5) e (10.6). 


Como estimador de S2, considere a quantidade 


5 e = x), 


iEs 


1 


n — 


d= 


onde b = y/z. Na notação do Capítulo 5, b = r. Temos então 


Teorema 10.5 Suponha que 


w 


2 
i. E3 satisfaz a condição (10.1) e 


2 
Shu 


ERR E Y x ; a 
tw. Ap , (eee) e Ka Sao uniformemente limitados em V. 
X v SRy Xv v Rv y 


Então, 


2 
Shy 


quando v — 00. 


Combinando os Teoremas 10.4 e 10.5, e utilizando o teorema de Slutsky (Leite 


e Singer, 1990), tem-se que 
Teorema 10.6 Sob as condições dos Teoremas 10.4 e 10.5, tem-se que 


YRv —Y, D 


Va- 8stylmy 


» N(0,1), 


quando v — 00. 
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10.3 Estimador regressão 

Conforme visto no Capítulo 6, o estimador regressão é dado por 
Treg =7 + Êo (X -7), 

onde 


P N E 
Ei Dies(Xi = T)? 


A notação empregada a seguir é a mesma que a utilizada no Capítulo 6. Definindo 


os resíduos 


(10.7) E: =Y; -7- Bo (X-X), 
j =1,..., N, tem-se que (veja o Exercício 10.4) 

N N = 
(10.8) DS E=0, SE(X-X)=0 

i=1 i=1 
e 

É sas 2 2 
2 — EE + E — 
Sh = — e se (1- PIx,Y]). 


Tem-se então o 


Teorema 10.7 Suponha que 


i. {Eir}; satisfaz a condição de Lindeberg-Hajek e 


="? 
si ERa S Xiv— Xv 2 ; aa 
ti. as sequências [ Col | e E } satisfazem a condição (10.1). 
iv Ev ) iy 
Então, com relação a AASs, 


Y Regv -Yy p 


V VRegv 


> N(0,1), 


quando v — œ, onde 


VRegv = (1 E fu) Sty (1 = BIX, Y]) $ 


Ny 


Definimos então o estimador 
2 
IN S x 
Vre = 0- AHF (1- [x,v]), 
n 


onde |X, Y] = sxy /(sxsy). 
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Teorema 10.8 Suponha que 


= 12 > da 
- iv Av Yiv—-Yv . e y 
i. as seqüências [ Eni | e (E satisfazem a condição (10.1) e 
iv iv 


XYv Yv 

ii. a seqüência {p2|X,Y]}„>»;ı é tal que pBlX,Y] < 1 para todo v. 
Então, 7 

VRegv P 

— < —> 


1, 
VRegv 


quando n — 00. 
Como conseqüência dos Teoremas 10.7, 10.8 e de Slutsky, temos que 


Teorema 10.9 Sob as suposições dos Teoremas 10.7 e 10.8, tem-se que 


Y Regv -Y, D 


V Vregv 


> N(0,1), 
quando n — 00. 


10.4 Amostragem por conglomerados 


Nesta seção, os resultados da Seção 10.1 são aplicados à amostragem por conglome- 
rados, onde considera-se conglomerados de tamanhos iguais. Resultados para o caso 
em que os conglomerados são de tamanhos diferentes são considerados nos Exercício 
10.5. 

O estimador considerado no Capítulo 7 para o caso de conglomerados de ta- 

manhos iguais a B é dado por 
= — Sacs Ta = 1 : 
Ye = SE A 5 Ha, 
a=1 
onde Ta = vas a=1,...,a. 

Considere que o número de conglomerados A aumenta, enquanto que o ta- 
manho dos conglomerados continua fixo, ou seja, associado à sequência (Ut, 
Av+ı > As, mas, por outro lado, By+1 = B,. Quanto ao número de conglome- 
rados selecionados, a,,1 > ay. Assim, o resultado a seguir é uma consequência 


direta do Teorema 10.1. Seja 


2 1 = 2 
Se = 1 À (to — tt) . 
a=1 
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Teorema 10.10 Suponha que a segiência {Hav} a, Satisfaz a condição de Lindeberg- 


Hajek. Então, com relação à AASs, 


Yev — Uv D 
> N(0,1), 
usp RM 


quando v — 00. 


Note que, neste caso, a, é o tamanho da amostra. Seja 


| e Do 
ne XO (ua — Ve) 
a-l 4 


2 
Teorema 10.11 Suponha que a seqüência [gel satisfaz a condição (10.1). 
ecv QV 


Então, com relação à AASs, 


quando v — 00. 


Combinando os Teoremas 10.10 e 10.11, juntamente com o Teorema de Slutsky, 


segue o 


Teorema 10.12 Sob as condições dos Teoremas 10.10 e 10.11, tem-se que 


Yev — Uv D 
N(0,1), 
E 


quando vV — 00. 
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Nesta seção, vamos ilustrar o comportamento da aproximação normal para a dis- 
tribuição da média amostral y. Conforme visto na Seção 10.1 com relação à AASs, 
a distribuição de vn(y — u)/v(1 — f)s? é aproximadamente N(0,1). Portanto, a 


probabilidade de cobertura do intervalo de confiança para a média populacional q, 


/ s? s2 
(10.9) Y = Za -f Tta -Pz , 


deve ser próxima de y = 1 — a em grandes amostras. Para y = 0,95 (za = 1,96) 
devemos ter cobertura próxima de 95%, ou seja, para cada 100 intervalos cons- 
truídos, aproximadamente 95% devem conter o verdadeiro valor da média populaci- 


onal u. Para demonstrar este fato empiricamente, simulamos populações de tamanho 
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N = 1.000 a partir das distribuições normal, t-Student (4 graus de liberdade), gama 
e Gumbel com média 400 e desvio padrão 150. Para cada população, foram retiradas 
100.000 amostras, segundo a AASs, de tamanhos n =10, 20, 30, 40, 50, 100 e 200. 
Para cada amostra retirada foi calculado o intervalo (10.9) e verificado se contém ou 
não a média populacional u para cada uma das distribuições. Estas probabilidades 
de coberturas estimadas (empíricas) estão apresentadas na Tabela 10.1. Pode-se 
notar claramente que mesmo para n pequenos as probabilidades de cobertura esti- 
madas estão relativamente próximas das correspondentes probabilidades teóricas de 


cobertura e que a medida que n cresce, elas vão ficando mais próximas ainda. 


Tabela 10.1: Probabilidades de coberturas estimadas (em porcentagem) 


y n normal t4 gama Gumbel 
10 86,5 86,6 85,9 85,7 
20 88,4 88,1 88,0 87,8 
30 88,9 89,0 88,7 88,5 
90% 40 89,2 89,2 89,0 88,9 
50 89,2 89,1 891 89,0 
100 89,7 89,5 89,7 89,5 
200 89,9 89,6 89,6 89,9 
10 91,8 922 91,1 90,7 
20 93,5 93,6 931 92,7 
30 94,0 94,0 93,8 93,4 
95% 40 94,4 94,3 940 93,8 
50 94,4 94,4 942 94,1 
100 94,8 94,7 946 94,5 
200 95,0 94,9 949 94,8 
10 97,1 97,3 96,2 96,1 
20 98,1 98,3 97,7 97,5 
30 98,5 98,5 98,2 98,1 
99% 40 98,5 98,7 984 98,3 
50 98,7 98,7 98,5 98,4 
100 98,9 98,9 98,7 98,7 
200 98,9 98,9 98,9 98,8 


médias populacionais (u) 403,9 384,9 3934 398,8 
desvios padrões pop. (S) 148,1 145,9 144,8 146,3 
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Exercícios teóricos 


10.1 Considere as quantidades Ri, definidas em (10.2). Mostre que R, = 0 e que 


a variância populacional é dada por (10.3). 
10.2 Verifique a validade da expressão (10.4). 


10.3 Verifique, sob a suposição (ii) do Teorema 10.4, a validade do resultado 
(10.6). 


10.4 Considere os resíduos definidos em (10.7). Verifique a validade dos resultados 
(10.8). 


10.5 No caso em que os conglomerados são de tamanhos diferentes, o estimador 
da média populacional u = Y (ver Capítulo 7) é dado por 


a Do1 Ta 
Ye yt Ba 


Defina 


a=1,...,A,, onde 


b E DA Tav 
r= A 
pa Bav 
a. Mostre que R, = 0 e que 
i-e 
Shy = 5 (Yoav a bav Ba) 
A,—1 


a=1 
b. Encontre condições sob as quais 
Ye — Hv D 


Va -= 1)S/ a 


» N(0,1), 


quando v —> 00. 


c. Considere 
1 


a— 


| 3 (Ya — ÎBa) 


a=1 


= 


com b=5 41 Ta/ > 4-1 Ba. Encontre condições, sob as quais 


2 
S P 
Sky 


quando v —> œ. 
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Capítulo 11 


Exercícios complementares 


11.1 Um exército compreende cerca de A = 400 companhias, cada uma com cerca 


de B = 100 soldados. Uma amostra de 10 companhias foi selecionada alea- 


toriamente e todos os soldados responderam a um questionário. Os números 


daqueles que responderam “sim” a uma questão, por companhia, foram: 25, 
33, 12, 32, 17, 24, 26, 23, 37, 21. 


a. 


Estime a proporção P dos soldados do exército que devem responder 


“sim” a essa pergunta. 


. Estime a variância deste estimador. 
. Dê um intervalo de confiança de 95%. 


. Supondo que os 1.000 soldados da amostra foram obtidos através de uma 


AASc, qual o estimador de P e sua variância estimada? 


. Dê, no caso de (d), um intervalo de confiança de 95%. 
. Calcule e interprete EPA = Varaclp]/Varaasclpl. 
. Estime pint, O coeficiente de correlação intraclasse, e interprete. 


8 
h. 


Verifique que EPA = 1 + pint(B — 1). 


11.2 Você deverá lecionar um curso de amostragem para alunos de graduação em 


Estatística com cerca de 60 horas. Elabore um programa procurando estimar 


o número de horas para cada tópico, que bibliografia você recomendaria aos 


alunos e adicione outras informações que você julgar pertinentes. 


11.3 Fez-se uma amostragem para estimar a produção de soja usando o seguinte 


plano amostral: 
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i. Inicialmente, os 100 produtores foram classificados em antigos (80) e no- 


vos produtores (20). 


ii. Para os antigos produtores tem-se informação sobre a produção de soja 


no último ano e cujo total foi 900 unidades codificadas. 


ij. Sorteou-se uma amostra casual simples de quatro produtores novos e 


quatro produtores antigos, cujos dados estão no quadro abaixo: 


Produtores antigos 
Produtor: 12 3/4 
Produção atual: 15 9 11 13 


Produção do ano anterior: 12 8 9 11 


Produtores novos 
Produtor: 1 2 3 4 


Produção atua: 9 6 8 9 


Dê um intervalo de 95% de confiança para o total de soja produzida no mu- 
nicípio. 
11.4 Considere a população D = (1,3,5,7,9,18,19,20,22). 
a. Quais seriam os dois estratos que produziriam um “lucro” grande por 
AE? 
b. Quais seriam 3 conglomerados (de igual tamanho) que recomendariam o 


uso de AC? 


11.5 Defina, diga as principais propriedades e: 


a. a utilidade do coeficiente de correlação intraclasse; 
b. as vantagens e desvantagens de usar AS; 
c. a diferença entre AE e AC; 


d. quando se recomenda o uso de AE com alocação ótima. 


11.6 Suponha que deseja-se estimar a proporção P que responderam positiva- 


mente alguma questão e as informações obtidas foram: 
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h Ny, cn Ph 
1 60 1 08 
2 40 4 05 
3 100 9 0,2 


onde P, não são proporções reais, mas sim valores fornecidos por um profundo 


conhecedor dos hábitos da região. 


a. Qual a alocação ótima (AEot) para um custo de 92 unidades? Qual a 


alocação proporcional para uma amostra de 24 elementos (AEpr)? 


b. Suponha que, qualquer que tenha sido o esquema amostral, você obteve: 
pı = 0, 7; p2 = 0,6 e p3 = 0,3. Calcule para cada caso em (a) a estimativa 
de P, varAEprlp] e varapot|7). 

c. Suponha que as estimativas de Ph, h = 1,2,3 obtidas em (b) vieram de 
uma AASc. Neste caso, qual seria vara Aselp]? 

var AFot [p] var AEpr|P] 


var A aselp] var a Aselp] 
e. Faça um breve comentário sobre os resultados obtidos. 


d. Calcule epa[AEot] = e epa[AEpr] = 


11.7 Deseja-se estimar o total da produção de uma região produtora de trigo. A 
região é formada por 800 unidades produtoras, de tamanhos aproximadamente 
iguais. Decidiu-se usar AS do seguinte modo: 

i. A amplitude de seleção é igual a k = 100; 
ii. Sorteia-se um número r, 1 < r < 100; 


iii. Toma-se o conglomerado formado pelos 8 elementos r, r+100, r+200,..., r+ 
700; 


iv. Repete-se o processo 10 vezes, obtendo-se 10 conglomerados, isto é, a 


amostra toda é formada por 80 elementos. 


Os dados sobre as 10 amostras sistemáticas foram: 


Amostra: 1 2 3 4 5 6 T 8 9 10 


N° aleatório: 09 12 23 25 30 14 66 73 74 90 
Total: 970 943 955 973 935 968 980 1009 1042 1022 


a. Qual seria uma estimativa da produção total das 800 unidades? 
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b. Dê uma estimativa da variância dessa estimativa. 


c. Sabendo-se que a variância por unidade é S2 = 107,57, compare a AS 


com a AASc em termos de suas variâncias, isto é, do EPA. 


d. Sabe-se que a correlação intraclasse pode ser estimada da expressão EPA = 
1+pim (B-— 1), onde B é o número de elementos dos conglomerados. Ache 


Pint € dê suas conclusões. 


11.8 Descreva sucintamente a utilidade: 


a. do estimador razão; 


b. do efeito do planejamento amostral (EPA). 


11.9 Queremos estimar a proporção P de casas de uma cidade que são alugadas. 


Decidimos usar o seguinte esquema amostral: 
i. Usando os resultados do último censo, dividimos a cidade em 100 setores 
com um número aproximadamente igual de casas, por setor; 


ii. Sorteamos uma amostra casual simples (AASc) de 10 setores e contam-se 


o número de casas desses setores; 


ii. Em cada setor sorteiam-se (AASc) 20% das casas e todas são entrevista- 


das. 


Os resultados foram: 


Setor sorteado: 1 2 3 4 5 6 T 8 9 10 

Nº atual de casas no setor: 60 50 40 80 100 80 50 60 40 100 
N° de casas entrevistadas: 12 10 8 16 20 16 10 12 8 20 
Nº de casas alugadas: 6 4 6 6 12 4 7 6 4 ll 


a. Dê o estimador da proporção e sua estimativa. 
b. Dê o estimador da variância da proporção e sua estimativa. 


c. Admitindo que as 132 casas selecionadas foram obtidas através de uma 
AASc, determine: a fração amostral geral; a estimativa da proporção e a 


estimativa da sua variância. 
d. Calcule o EPA do esquema amostral usado e dê sua interpretação. 


e. Como ficariam (a) e (b) se soubéssemos que existem atualmente 8.000 


casas na cidade ? 
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11.10 Dependendo das informações que se tem sobre uma população, existirá um 
esquema amostral mais indicado para estimar a média. Descreva sucintamente 
em que casos seria mais vantajoso usar AAS, AE, AS e AC (1 estágio). Ilustre 


com fórmulas. 


11.11 Uma companhia fornece carros a seus vendedores e agora deseja estimar o 
número médio de milhas percorridas por carro. A companhia tem 12 filiais e 


com as seguintes informações: 


Conglomerado Ba Ha so 


1 6 24 5,07 
2 2 27 5,53 
3 10 28 6,24 
4 8 28 6,59 
5 27 6,21 
6 29 6,12 
7 14 32 5,997 
8 2 28 601 
9 2 29 5,74 
10 6 25 6,78 
11 12 26 5,87 
12 4 27 5,38 


e Plano A: Decidiu-se selecionar 4 filiais com reposição e usar todos os 


carros das filiais sorteadas. 
e Plano B: 
i. Dividiu-se a população em 2 estratos: de 1 a 6 e de 7 a 12. 
ii. De cada estrato, sortearam-se 2 conglomerados com reposição. 
iii. De cada conglomerado sortearam-se 40% dos indivíduos. 
e Plano C: 
i. Selecione 4 UPA’s com probabilidade proporcional ao tamanho (PPT) 
e com reposição. 


ii. De cada UPA tome todos os elementos. 


Execute os planos A, B e C e dê intervalos de confiança de 95% para o número 
médio de milhas percorridas. Para o plano C, suponha que a e S2 das uni- 


dades selecionadas sejam aqueles indicados na tabela. 


254 Exercícios complementares 


11.12 Compare os estimadores razão e regressão. 


11.13 Dê as expressões para estimar as variâncias do estimador da média para 
cada plano amostral abaixo: 
a. amostragem sistemática; 
b. amostragem com probabilidade proporcional ao tamanho; 
c. amostragem por conglomerados de tamanhos desiguais. 


Em cada caso, discuta os princípios usados para sua derivação e comente sobre 


a precisão dos mesmos. 


11.14 Para estimar uma proporção estamos em dúvida em relação aos seguintes 
esquemas amostrais (todos com reposição): AAS, AEpr e AEot. 
a. Compare as fórmulas das variâncias nos três casos. 
b. Comente em que situação cada uma delas é mais indicada. 


c. O primeiro esquema amostral “equivale” a um dos outros dois? Justifique 


a sua resposta. 


11.15 Defina, comente brevemente e descreva as vantagens de usar (não use mais 
do que uma página por item): 
a. Correlação intraclasse. 
b. Amostragem com seleção proporcional ao tamanho (PPT). 
c. Estimador regressão. 


d. Alocação ótima em amostragem estratificada. 


11.16 Deseja-se estimar o número de domicílios numa região com 10 quarteirões. 
Uma estimativa visual do número X de domicílios nessa região foi feita através 
de uma pesquisa visual bem rápida. O número real de domicílios Y foi obtido 


mais tarde por meio de intensiva pesquisa de campo: 


i 1 2 3 4 5 6 7 8 9 10 
Yi: 22 36 9 35 19 24 20 14 12 10 
Xi: 25 24 9 40 19 25 12 12 12 12 
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a. Qual a variância do estimador quando uma amostra de 2 quarteirões é 


selecionada com probabilidade proporcional a X, com reposição? 


b. Compare-a com aquela obtida por amostragem equiprobabilística com 


reposição. 


c. Se os quarteirões selecionados em (a) forem o segundo e o oitavo, encontre 


a estimativa do número de domicílios e a sua variância. 


11.17 O uso da amostragem sistemática (AS) acarreta alguns problemas na es- 
timação da variância da média ou do total. De acordo com certas suposições, 
ou usando alguns artifícios, podemos usar procedimentos diferentes de es- 
timação. Discuta sucintamente, porém estatisticamente, as situações e os 


procedimentos que você usaria para estimar a variância em AS. 


11.18 Indique (1) uma vantagem, (2) uma contra indicação e (3) uma situação 


prática onde se recomenda o uso de: 
a. amostragem por conglomerados; 


b. amostragem em múltiplos estágios; 


c. amostragem estratificada. 


11.19 Dê expressões para estimar os erros padrão do estimador da proporção 


populacional para cada um dos planos abaixo: 


a. amostragem sistemática; 
b. amostragem em dois estágios com PPT no primeiro estágio; 


c. amostragem em um estágio, para conglomerados de tamanhos desiguais. 


11.20 Para investigar o rendimento médio dos empregados do setor bancário de 
uma grande cidade, criou-se dois estratos. Um formado pelos empregados nos 
bancos estatais ou mistos, e outro pelos bancários da rede privada. De cada es- 
trato foi retirada uma amostra aleatória simples e realizado o levantamento de 
interesse. Como um estudo secundário, e usando a mesma amostra, pretende- 
se estimar o total dos rendimentos das mulheres empregadas no setor. Defina 
a variável e o parâmetro de interesse, proponha um estimador e a fórmula para 


o respectivo erro padrão. 
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11.21 Uma pesquisadora desenvolveu um indicador para medir o grau de “sa- 
tisfação no emprego” em uma escala inteira variando de O a 10. Ele é cons- 
truído pela agregação das respostas dadas a várias situações apresentadas aos 
trabalhadores. Para estimar qual seria o indicador médio dos 10.000 fun- 
cionários de uma grande instituição, o estatístico responsável sugeriu que se 
usasse o critério de amostras repetidas. Ou seja, a população foi dividida em 
50 zonas de 200 pessoas cada uma; em cada zona sortearam-se cinco pessoas 
independentemente; os primeiros sorteados de cada zona formaram a primeira 
réplica, os segundos a segunda réplica e assim por diante, até a quinta réplica. 


Os valores médios obtidos para as cinco réplicas foram: 6,2; 5,4; 6,0; 4,6 e 5,6. 


a. Por que será que o estatístico fez esta proposta? 

b. Qual é o tamanho final da amostra? 

c. Qual é uma estimativa do indicador médio esperado para os 10.000 fun- 
cionários? 


d. E um intervalo de confiança de 95% para esse valor? 
Justifique estatisticamente as respostas. 


11.22 No final do ano de 1976 pretendia-se estimar o valor total do estoque através 
de uma amostra de quatro unidades de uma rede de lojas. Isto porque a 
auditoria em todas demoraria até o final do primeiro trimestre. Na tabela 


abaixo encontram-se todos os valores dos anos de 1975 (total igual a 353) e 


1976: 

Loja 1975 1976 Loja 1975 1976 Loja 1975 1976 
1 1 2 12 7 9 23 16 21 

2 1 3 13 7 10 24 17 17 

3 3 5 14 7 12 25 17 19 

4 3 5 15 8 9 26 17 20 

5 3 5 16 10 14 27 17 30 

6 3 6 17 10 16 28 18 22 

7 4 6 18 12 15 29 19 30 

8 4 6 19 12 17 30 20 25 

9 5 9 20 12 18 31 20 28 

10 5 10 21 15 17 32 20 28 
11 5 11 22 15 20 33 20 28 
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Para o ano de 1976, utilize apenas os dados das unidades sorteadas. 


a. Defina o plano amostral. 
b. Sorteie a amostra. 


c. Dê um intervalo de confiança de 95% para o total do estoque. 


11.23 Uma população de N indivíduos está dividida em H estratos cada um 
com Np, elementos, h = 1,...,H. O estrato h contém uma proporção P, de 


indivíduos possuindo uma determinada característica. 


a. Ignorando a correção para amostras sem reposição, calcule o estimador 


Pes da proporção populacional P para a alocação ótima de Neyman. 


b. Para H = 2, compare as eficiências das alocações: uniforme, proporcional 


e ótima. 


11.24 Uma população de N indivíduos está dividida em A conglomerados, cada 
um com Ba indivíduos. Será sorteada uma amostra de a conglomerados (com 
reposição), com probabilidade proporcional ao tamanho e, de cada conglome- 


rado serão sorteados (com reposição) b indvíduos, b < Ba, a=1,...,4. 
a. Essa é uma amostra probabilística? Qual o valor da fração amostral? 
b. Defina um estimador para o total da população. 
c. O estimador é não viesado? Prove. 
d. Qual seria a variância deste estimador? 
e. Defina um estimador dessa variância. 


f. Justifique, provando, o uso das duas sugestões dadas em (d) e (e). 


11.25 Uma agência bancária recebe uma quantidade muito grande de declarações 
de imposto de renda na época das entregas das mesmas pelos contribuintes. 
Essas declarações simplesmente são recebidas e empilhadas de acordo com a 
ordem de entrega. Uma parte do imposto a ser recolhido pode ser aplicada em 
um fundo especial. O gerente deseja ter uma estimativa diária do total a ser 
aplicado neste fundo usando uma amostra de 10% das declarações. Proponha 
um plano amostral para o problema, indicando as fórmulas necessárias para 


construir um intervalo de confiança de 95%. 
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11.26 Tem-se arquivado em fita uma série de informações sobre cerca de 20.000 
indústrias brasileiras. Tais indústrias estão ordenadas segundo a variável fatu- 
ramento. Sugira um esquema amostral para estimar o faturamento total das 
indústrias. Apresente as fórmulas da variância a ser usada, os dados que você 
necessitaria para estimar o tamanho da amostra e o procedimento que usaria 


para encontrá-los. 


11.27 Um banco tem cerca de 800 agências espalhadas por todo o Brasil. Em cada 
agência tem-se um número desconhecido de clientes que pediram empréstimos, 
tiveram seus cadastros aprovados, porém, ainda não foram atendidos. O banco 
está interessado em estimar qual o valor médio de pedido por cliente. Você 
foi designado a propor um plano amostral que atenda ao objetivo proposto. 


Sabe-se que dentro de cada agência os valores dos pedidos são muito parecidos. 


11.28 Você foi incumbido de fazer o plano amostral para uma pesquisa numa 
cidade com 35.000 moradores, divididos em aproximadamente 7.000 domicílios. 
A pesquisa visa o levantamento do interesse das pessoas em usar equipamento 
de lazer que a prefeitura deseja implantar. Proponha um plano, destacando: 


frame, UPA's, USA's, fórmulas de estimadores e variâncias, etc. 


11.29 “Amostragem e Planejamento são técnicas muito parecidas: a primeira 
destina-se a estimar parâmetros e a segunda a testar hipóteses.” Admitindo 
a afirmação acima correta, a Amostragem Estratificada corresponderia a que 


tipo de modelo de Planejamento? 


11.30 Discuta os critérios usados para determinação de tamanho de amostra, em 


planos experimentais. 


11.31 O uso de variáveis auxiliares conhecidas é fator importante para melho- 
rar as estimativas de um planejamento amostral. Descreva sucintamente dois 


esquemas amostrais que usem variáveis auxiliares para melhorar estimadores. 


11.32 Quando é preferível usar PPT (probabilidade proporcional ao tamanho) 


em vez de uma AAS? 


11.33 Compare a AAS com a AC em Estágio Único, indicando vantagens e des- 
vantagens e exemplificando situações onde são recomendados o emprego de 


cada desses tipos de amostragem. 


259 


11.34 Compare a AAS com a AE, indicando vantagens e desvantagens e exemplos 


do uso desses dois esquemas. 


11.35 Queremos conduzir uma pesquisa para estimar a proporção de contami- 
nados por uma certa doença no município de Atlântida. Sabe-se que a con- 
taminação afeta diferentemente a região urbana e rural. Assim, decidimos 
considerar cada região como uma população diferente. Entrevistando-se espe- 
cialistas, obtivemos a informação de que na região urbana a incidência esperada 
da doença é de 50% e na região rural de 10%. O último censo informa que 
existem 2.000 moradores na região urbana e 4.000 na região rural. Suponha 


amostras colhidas por AASs. 


a. Qual o tamanho das amostras nas duas regiões para que tenhamos o 


mesmo coeficiente de variação de 0,05 para os estimadores das proporções? 


b. Suponha que as amostras com os tamanhos determinados pela resposta 
encontrada em (a) produziram os seguintes estimadores: região urbana 
40% de infectados e região rural 20%. Quais seriam as variâncias dos 


estimadores nos dois casos? 
Use as informações da pergunta (b) para responder as próximas duas. 


c. Qual seria um estimador da proporção de contaminados no município? 


d. Dê um intervalo de confiança para o número estimado em (c). 
11.36 Considere a população D = (1,3,5,7,9,18,19,20,22). 
a. Como deveria ser dividida a população em dois estratos para que se tenha 


grande lucro em usar AE? 


b. Como deveria ser dividida em 3 conglomerados de igual tamanho onde 
o uso de AC seria recomendado sem correr o risco de um grande erro 


amostral? 


11.37 Defina um plano amostral e o respectivo estimador para o seguinte pro- 


blema: 


i. Deseja-se estimar a porcentagem da população do (seu) estado vivendo 


na região urbana. 


ii. Usar-se-á município como UPA, e todo o município será investigado. 
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Apêndice A 
Relação de palavras-chave 


amostra Subconjunto de uma população por meio do qual se estabelecem ou esti- 


mam as propriedades e características dessa população. 


amostra probabilística Toda amostra que permite fazer inferência estatística so- 


bre a população. 


amostra representativa Toda amostra que permite fazer inferência sobre a po- 


pulação. 
amostragem Processo ou ato de construir (selecionar) uma amostra. 


amostragem probabilística O processo de selecionar elementos ou grupos de ele- 
mentos de uma população bem definida, através de um procedimento que atri- 
bui a cada elemento da população uma probabilidade, de inclusão na amostra, 


calculável e diferente de zero. 


característica de interesse (variável) Propriedade dos elementos da população 


que se pretende conhecer. 


censo É o resultado do levantamento estatístico que visa conhecer a totalidade da(s) 


característica(s) individuais de uma população. 


distribuição amostral Distribuição de probabilidade de uma estatística induzida 


pelo plano amostral. 


elemento, unidade de análise, unidade elementar ou unidade de observa- 
ção /mensuração Suporte do atributo, ou atributos, cuja observação cons- 


titui o fim de um levantamento de dados. 
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erro padrão de um estimador é o desvio padrão desse estimador. 
esperança ou valor esperado Valor médio de uma variável aleatória. 


estimador de um parâmetro de dada população, é toda função de elementos de 
amostra oriunda dessa população que mantém para com o parâmetro uma 


certa relação. 
estimativa Valor que o estimador assume para dada amostra. 


intervalo de confiança Intervalo aleatório que contém a quantidade de interesse 


com probabilidade fixada. 
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parâmetro de uma população é uma função do conjunto de valores dessa po- 


pulação, uma característica dessa população. 


plano amostral Protocolo descrevendo os métodos e medidas para execução da 


amostragem. Também é usado como sinônimo de Amostragem. 
população amostrada População da qual foi retirada a amostra. 


população objetivo (alvo) População que se pretende atingir, usualmente estabe- 


lecida nos objetivos da pesquisa. 


população ou universo Conjunto de elementos cujas propriedades se investigam 


por meio de subconjuntos que lhes pertencem. 


população referida População previamente disponível e descrita pelo sistema de 
referência e para a qual podem ser construídas e selecionadas as unidades 


amostrais. 


precisão ou fidedignidade Propriedade que tem um processo de observação de 
dar lugar a um conjunto de observações da mesma entidade que apresentam 


uma variabilidade maior ou menor. 


seleção não-probabilística Qualquer processo de escolher elementos para a amos- 
tra de modo intencional ou onde não é possível estabelecer a probabilidade de 


inclusão dos elementos. 


seleção probabilística Processo de selecionar elementos da amostra que permite 


estabelecer as probabilidades dos elementos pertencerem à mesma. 
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sistema de referência (frame) Lista ou descrição das unidades amostrais da po- 


pulação, por meio da qual é possível selecionar a amostra. 
tamanho da amostra E o número de elementos que a compõe. 


unidade amostral Cada uma das partes disjuntas em que uma população é exaus- 
tivamente decomposta, para, do conjunto delas se façam extrações a fim de 
constituir uma amostra, ou estágio de uma amostra. Pode ser um conglome- 


rado de unidades elementares. 


unidade elementar (UE) ou simplesmente elemento de uma população é o objeto 


ou entidade portadora das informações que pretende-se coletar. 


validade, acuracidade, ou exatidão é a propriedade do processo de medir que 


é isento de erro sistemático. 


viés ou vício de um estimador de um parâmetro é a diferença entre o seu valor 


esperado e o valor do parâmetro. 
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Apêndice B 


Tópicos para um levantamento 


amostral 


a. Identificação dos objetivos e populações 


e apresentar as razões e antecedentes da pesquisa 

e definir os objetivos gerais, operacionais e alternativos 

e identificar as unidades de análise e resposta 

e estabelecer a população alvo 

e especificar as subpopulações de interesse (estratos) 

e identificar os possíveis sistemas de referência (frames) 
e descrição da população referenciada 

e especificação dos parâmetros populacionais de interesse 


e descrição da população amostrada 
b. Coleta das informações 
e escolher o tipo de investigação: experimentação, amostragem, censo, des- 


critivo, analítico, etc. 


e estabelecer o modo de coleta: entrevista direta, observação, individual, 


em grupo, por carta, telefone, por instrumento, etc. 
e operacionalizar os conceitos: variáveis e atributos 


e elaborar o instrumento de mensuração /coleta dos dados (questionário) 
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c. Planejamento e seleção da amostra 


e determinar o orçamento e custos do levantamento 

e escolher as unidades amostrais 

e definir o plano amostral 

e fixar o tamanho da amostra 

e escolher os melhores estimadores e seus erros amostrais 

e selecionar as unidades amostrais 

e prever procedimentos para os erros não amostrais (não resposta, mu- 
danças no sistema de referências, etc.) 


d. Processo de coleta dos dados (campo) 


e claborar os manuais dos entrevistadores e críticos 
e montar a equipe de coleta de dados 


e prever treinamento para entrevistadores, supervisores, checadores, lista- 


dores, etc. 
e definir processos de controle contínuo de qualidade do campo 


e prever procedimentos para situações inesperadas 
e. Processamento dos dados 


e identificar programas para a entrada dos dados 
e criar planos de consistência e qualidade das informações 
e planejar e criar banco de dados e dicionário de variáveis 
e preparar os programas dos planos tabulares iniciais 
f. Análise dos resultados (modelos estatísticos) 
e planejar as análises iniciais sobre a qualidade dos dados levantados: des- 
critivas e/ou modelares 
e apresentar o desempenho da amostra: qualitativa e quantitativamente 
e descrever a população amostrada 
e definir modelos de análise que respondam os objetivos iniciais 


e efetuar análises exploratórias 
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e apresentar os modelos, análises e conclusões complementares obtidas 
g. Apresentação dos resultados 

e relatórios 
h. Disponibilidade dos dados (divulgação do banco de dados) 


e banco de dados 


e conceitos, variáveis e indicadores (dicionário) 
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